AI自学超越人工标注训练，蚂蚁数科2篇自监督学习论文入选国际顶会

来源：中国日报网 2024-07-11 14:57

分享到微信

近日，蚂蚁数科2项研究成果分别入选“欧洲计算机视觉会议（ECCV）”和“国际机器学习大会（ICML）”，可实现无需人工打标数据的情况下，通过自监督学习、强化学习等方法训练模型输出可信结果。据悉，两项成果将被应用于视频版权保护和智能问答领域。作为人工智能领域的顶级国际学术会议，2024年ECCV、ICML的论文接收率分别为27.5%、27.9%。

入选2024年欧洲计算机视觉会议（ECCV）的论文《基于区域令牌表征的自监督视频抄袭定位》核心解决版权保护场景的行业难题——视频抄袭定位，即判断两个视频中是否存在抄袭片段，并确定对应的起止时间。当前常用的抄袭片段定位算法依赖大量的人工标注数据训练模型。受视频时间长、比对工作量大等因素影响，人工标注的成本极高。蚂蚁数科AI团队提出了一个自监督学习的框架，通过算法自动生成丰富的训练样本，对特征模型、定位模型进行训练，实验结果表明，该⽅法无需使⽤任何⼈⼯标注数据，即可超越当前最先进的标注数据训练⽅法。同时，论文还创新性地在视觉Transformer模型（ViT）上增加了一种区域令牌（Regional Token）结构，使得模型可以关注到“画中画”等局部区域，增强抄袭识别的准确率和完整性。蚂蚁数科早在2019年就开始探索AI技术在版权保护领域的落地应用，这是团队研究成果第五次入选国际顶会。

此外，在智能对话领域的研究成果也取得突破性进展。今年5月入选2024年国际机器学习大会（ICML）的论文《基于强化学习的检索增强大语言模型可信对齐》由中国科技大学、合肥综合性国家科学中心人工智能研究所、蚂蚁数科联合申报。论文针对大语言模型容易遭受幻觉困扰、制造无效内容的问题，提出了基于强化学习的“可信对齐”策略，该策略的目标不只是“满足用户偏好”，而希望激励模型生成更可信的内容。相比传统基于专家标注样本的监督训练方式，“可信对齐”训练的模型更注重基于给定的上下文和逻辑给出可信的判断。实验结果表明，该方案比开源基础模型的准确率提升55%，与准确答案的对齐成本降低83%。此外，“可信对齐”在生成文字的流畅度方面比传统方法提升30%，良好的性能将有利于语言模型在TO B严谨行业的应用落地。

自监督学习被认为是机器智能达到人类水平的关键，其最大的特点是不依赖人工标注的数据标签，可自主观察和学习、提取有用的特征，并应用于各种任务，与人类学习的方式相似。自监督学习在为模型训练降本提效的同时，具备更好的知识泛化能力和持续学习能力，研究对推动AI发展有着深远意义。

【责任编辑：高琳琳】

专题

推荐阅读

关于我们 | 联系我们

中国日报网版权说明：凡注明来源为“中国日报网：XXX（署名）”，除与中国日报网签署内容授权协议的网站外，其他任何网站或单位未经允许禁止转载、使用，违者必究。如需使用，请与010-84883777联系；凡本网注明“来源：XXX（非中国日报网）”的作品，均转载自其它媒体，目的在于传播更多信息，其他媒体如需转载，请与稿件来源方联系，如产生任何问题与本网无关。

版权保护：本网登载的内容（包括文字、图片、多媒体资讯等）版权属中国日报网（中报国际文化传媒（北京）有限公司）独家所有使用。未经中国日报网事先协议授权，禁止转载使用。给中国日报网提意见：rx@chinadaily.com.cn

C财经客户端

扫码下载