察言观色贼准,情绪价值拉满,还事事有回音。
您的“超拟人”赛博语音搭子又进化了,而且是国际顶级比赛认证的那种。
在语音领域顶级会议 ICASSP2026 发起的 HumDial 类人语音对话系统挑战赛“情感智能赛道”中,TeleAI 从 100 余支全球顶尖报名参赛队伍中脱颖而出,一举夺魁!

在中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授的指导下,TeleAI 科研团队以智传网(AI Flow)为基础,持续拓展语音大模型的前沿创新。此前,TeleAI 就在业内首次提出“超语义语音学”(Beyond-Semantic Speech, BoSS)。
基于 BoSS 理论,TeleAI 实现并推出了超拟人对话大模型 GOAT-SLM,让人机交互更有人情味。此外,针对自然交互、情绪、方言等真实场景的理解能力,TeleAI 还提出了语音大模型评测基准 TELEVAL,让大模型的“拟人”效果有了更明确的评价标准。
在本次 HumDial 情感智能赛道中,TeleAI 基于此前提出的超拟人语音对话大模型 GOAT-SLM,并结合注入式情感归因思考(Injected Emotional-Attribution Thinking,IEAT)数据构造策略,形成了一套面向情感理解与共情生成的统一建模方案。
GOAT-SLM:听话听音,锣鼓听声
超拟人语音对话大模型 GOAT-SLM 的训练过程就像教 AI 学说话的过程。
首先,打好“听懂” 的基础。先通过大规模语音数据让模型实现 “语音 - 文本对齐”,比如听懂人说的话、匹配对应的文字含义;再加入语气、语速、说话人特征等信息,让模型不仅懂内容,还能捕捉 “副语言线索”—— 比如从急促的语气中察觉到焦虑,从温和的语调里感受到平静。
随后,练好“会说” 的能力。模型进入端到端的多模态联合优化过程,同时学习生成文本回复和语音回复。这意味着,它不仅要写出共情的文字,还要用合适的语气、情绪表达出来—— 比如安慰时语调放缓,鼓励时语气坚定,确保文字有温度,语音有情绪。

GOAT-SLM 训练策略
IEAT:换位思考,学会共情
当大模型学会听懂语言的弦外之音,就需要训练更进阶的能力:提前分析情感,学会共情。IEAT 将用户的情绪状态和情绪诱因,以“思考轨迹” 的形式注入模型的思考过程。
打个比方,AI 在做出回应前,会先在心里过一遍:“用户现在是这种情绪,原因是什么,我该怎么回应才能让他觉得被理解?”
这种方式没有把真实地情绪冷冰冰地标注成“愤怒”、“愉快”、“烦躁”这样的死板标签,而是让它成为 AI 思考的一部分,就像人与人对话时的换位思考。
基于 GOAT-SLM + IEAT 数据构造策略的整体方案,TeleAI 在本次 HumDial 情感智能赛道的多维评测体系下表现稳定且全面。在自动评测与人工主观评测中均取得领先成绩,最终获得情感智能赛道第一名。

此次夺冠,不仅验证了 TeleAI 技术方案的有效性,更预示着语音对话的 “情感时代” 已经临近。
从“听懂” 到 “读懂”,从 “回应” 到 “共情”,TeleAI 的技术突破正在重构语音对话的体验边界。或许不久后,那些 “读不懂情绪” 的机械回应将成为过去,有温度、懂共情的语音 AI,会真正融入我们的生活,成为贴心的陪伴者、靠谱的沟通者。
相关工作:
Qing Wang, Zehan Li, Yaodong Song, Hongjie Chen, Jian Kang, Jie Lian, Jie Li, Yongxiang Li, Xuelong Li, “A Unified Spoken Language Model with Injected Emotional-Attribution Thinking for Human-like Interaction”, arXiv: 2601.04960.