找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 47|回复: 2

认知智能国家重点实验室获国际对话系统技术挑战赛DSTC11三项冠军

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2022-12-30 17:13 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
近日,在第十一届国际对话系统技术挑战赛Dialog System Technology Challenge(DSTC11)中,由科大讯飞承建的认知智能国家重点实验室凭借基于提示学习的多任务联合训练方案以及基于对比学习的多阶段粗到细模型训练方案,一举夺得三项冠军
Track1:多模态智能对话
在现实世界中,人类需要通过多种感官(例如眼睛、耳朵、触觉)来感知丰富的信息。对于机器而言,它需要通过能够处理多模态信息的智能对话系统,来感知并理解周边环境,有效地在现实世界的多模环境中帮助用户,这也是Track 1 SIMMC(Situated and Interactive Multimodal Conversations)任务的目标所在。
SIMMC任务给定一个或者多个用户和助理共同视角的场景进行任务型对话,每个场景中会包含多个物体对象,下图是示例的场景信息。
1.jpg


购物场景示例
SIMMC任务包括歧义候选识别、多模态共指消解、多模态对话状态跟踪以及回复生成四项子任务,如下图所示:
2.jpg


SIMMC任务图示
Subtask#1(歧义候选识别):用户对话过程存在歧义,找出场景中的歧义对象。
Subtask#2(多模态共指消解):将用户对话过程存在的指代对应到场景中的对象上。
Subtask#3(多模态对话状态跟踪):根据上下文对话,以及场景信息,确认用户对话的意图、槽位、槽值。
Subtask#4(回复生成):根据上下文信息以及场景中对象的属性信息,生成助理的回复。
此任务的难点在于需要对话系统将场景信息以及场景中的对象信息编码到对话上下文里,并将物品属性与场景中的对象属性建立联系,从而进行识别和消歧。
针对前三个子任务,实验室创新提出基于提示学习的多任务联合训练方案,进行多模态场景信息编码和多任务学习,全面提升对话系统的信息编码和属性联系建立能力,有效攻克任务难点。
3.jpg


基于提示学习的多任务学习架构
针对回复生成任务,实验室采用Encoder-Decoder结构,同样基于模板的形式将场景信息编码,另外结合系统回复所需要的对话状态信息,生成最终回复。
4.jpg


回复生成任务方案
基于以上技术创新,实验室对话系统在Track 1的Subtask#1(歧义候选识别)及Subtask#3(多模态对话状态跟踪)中的Act F1均取得第一。
5.png


Track 1比赛结果
Track 2:自动对话意图归纳
任务型对话系统的关键是对话意图识别。在面临新增意图请求下,任务型对话系统的理解能力及模型迁移能力较差,因此自动对话意图归纳对于智能对话系统至关重要。
Track 2旨在考察机器和人类在现实环境交互中自动归纳意图的能力,包括意图聚类和开放意图归纳两个子任务。难点在于,新增未知意图较为开放,并且需要在少量无标签数据下获得对聚类任务更好的对话语句特征表示。
为了攻克以上难点,实验室提出了基于对比学习的多阶段粗到细模型训练方案,该方案由三个阶段组成:
6.png


基于对比学习的多阶段粗到细模型训练方案
使用大量的对话数据,将同一对话的连续话语作为正样本对通过对比学习方式进行预训练。如下图示例,模型在训练过程中会隐式地学习了I am looking forrestaurants和Find me somerestaurants的相似表示,因为它们的下一句都是What type of food doyou like?
连续对话正样本对构造
使用与比赛数据同一领域且带有意图标签的数据,将每个样本与其相邻的样本或具有相同意图的样本作为正样本对,通过对比学习的方式对第一阶段获得的预训练模型进行微调。
7.png


近邻对话与相同意图对话正样本对构造
通过对比学习和聚类联合训练的方式对第二阶段获得的模型进一步微调,弥补单一方式训练的不足,使得聚类的效果更好。
8.png


对比学习与聚类联合训练框架
实验室利用以上三阶段训练结束后的模型获取对话句子的特征表示,采用聚类算法k-means来获得最终的聚类结果。针对意图个数确定难点,实验室通过SilhouetteCoefficient在类别个数范围内实现自动优化确定,最终夺得该任务两个赛道冠军。
9.png


Track 2比赛结果
(左:Task 1意图聚类 右:Task 2开放意图归纳)
此外,在人机对话系统优化研究中,实验室不断突破知识构建学习、对话库构建、交互知识推理、自学习等共性基础技术,并在语言理解、对话管理、对话生成、多模态交互等关键核心技术上实现跨越,致力于让机器能理解多模态信息并分析意图,学习外部知识与人进行自然对话,具有情感能与人共情,实现更加自然的人机交互。
同时实验室以支撑“中国智造”升级需求为目标,积极探索对话系统交互能力升级和交互体验提升方法,将其在汽车交互、电视交互、陪伴机器人等多场景中落地应用,从而支持我国经济主战场的手机、家电、汽车等支柱性产业实现智能化、国际化升级。
  • 打卡等级:已臻大成
  • 打卡总天数:461
发表于 2022-12-30 18:49 | 显示全部楼层
感谢分享
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:413
发表于 2022-12-30 23:26 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-7-5 14:01 , Processed in 0.198233 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表