返回
新闻中心detailTitleIcon新闻详情

一次上线6款!星辰语音大模型上线模力方舟:60种方言混说识别与5种方言合成

2026-06-22 10:55中国电信天翼AI

近日,中国电信星辰语音大模型旗下的6款主力模型,一次性上线国内领先的大模型开源社区平台模力方舟(Gitee AI),正式向公有云开发者提供行业头部的多方言语音识别和合成服务!

中国电信星辰语音大模型自2024年5月全国首发以来,开创了业内首个中英文及30种方言自由混说的语音识别技术范式,彻底打破了传统"单一方言单独建模"的碎片化格局。截至目前,星辰语音大模型已在中国电信内外部真实生产场景,例如:电话客服、政务热线、会议纪要、智能硬件等核心业务场景完成规模化落地,月调用量超过4亿次,是一套在千万级用户真实生产中反复打磨的工业级语音产品。

模力方舟(MoArk)是开源中国旗下AI基础设施平台,背靠Gitee社区1800万开发者、36万家企业、2000余所高校,汇聚超20,000个开源模型,API日均调用量突破3,000万次。此次6款星辰语音大模型全系上线模力方舟,是将一套经过生产验证的工业级语音能力,通过标准API开放给更广泛的开发者和企业,让企业及个人开发者得以低门槛、标准化调用星辰语音大模型先进能力,真正把"听得懂每一句乡音、说得像真人开口"的语音AI能力,变成普惠能力。

newsPicUrl

TeleASR:不止"听得清",更要"听得懂"

星辰通用人工智能实验室此次推出的两款ASR模型,均采用单一模型支持中文+英文+60种方言混合识别的架构设计,彻底告别了传统"一种方言训练一个模型"的碎片化方案。

lTeleASR-Stream-MultiDialect-V3.2:定位实时语音交互场景。在电话信道、嘈杂环境、口语化表达等条件下,模型依然能保持高鲁棒性的流式识别,已规模落地于万号智能客服、数字人对话、政务热线等场景。

lTeleASR-Offline-MultiDialect-V2.7:则面向批量转写需求,单次可处理最长2小时音频,为语音质检、会议记录、电子存档等非实时场景提供高效工具。

关键评测数据上,TeleASR V3.2在普通话朗读(aishell2)字准确率达97.25%,英语朗读(librispeech_clean)达98.04%,与业内头部竞品持平。


newsPicUrl

注:测试结果来自星辰通用人工智能实验室

但真正拉开差距的是工业级生产场景:在普通话万号、粤语万号、粤语政务热线、四川话智屏四个实际生产场景上全部排名第一。更值得关注的是长尾方言表现——客家话朗读准确率84.12%(部分竞品不足40%),潮汕话对话准确率69.15%(竞品30%左右),大幅领先。

newsPicUrl

注:测试结果来自星辰通用人工智能实验室

这说明通用场景的基准分固然重要,但决定业务落地可行性的,是模型在强方言、高口音、口语化对话等复杂场景下的能力。

TeleTTS:超拟人、低时延、多方言,四款模型覆盖全场景

TTS方向,星辰实验室推出四款模型,覆盖离线→实时、单向→双向流式、普通话→多方言的完整能力矩阵。四款模型均基于"文音统一建模"架构,集情感丰富、自然流畅、多样音色等优势于一身,实现超拟人语音合成。

lTeleTTS-Offline-Mandarin-V3.2:非实时场景的品质之选

作为普通话非实时超自然语音合成模型,V3.2定位无需即时生成语音的场景,如内容播报、有声内容制作等。模型强调音质完整度和情感表达丰富度,支持磁性男、闲聊女等18个精细化音色,提供沉稳、活泼、温暖等多种声音风格选择,确保长文本播报的自然度和悦耳度。

lTeleTTS-Stream-Mandarin-V3.3:低时延实时合成,29音色覆盖

面向实时交互场景的普通话流式合成模型,可实时将文本转为超自然高品质语音输出。音色扩充至29个,适配数字人客服、AI外呼、通信助理、5G新通话、语音出行导航等丰富场景。已规模上线万号智能客服。

lTeleTTS-Bistream-V3.2:双向流式,逐字输入即可开口说话

输入和输出均为流式的超自然语音合成模型,支持逐字输入+自动断句,合成端无需等待完整句子即可开始输出语音。这一能力让AI在用户一边说话时就能同步生成回应语音,将人机对话的"感知延迟"压缩到最低,是实时语音对话场景的关键技术。同样支持29个音色,情感丰富、自然流畅。

lTeleTTS-Stream-MultiDialect-V3.2:多方言N合一,开口就是地道家乡味

多方言实时超自然语音合成模型,单模型支持五种方言:上海话、四川话、广州粤语、河南话、东北话。支持将流式方言文字输入实时合成为地道方言版音频。面向智能外呼、智能客服、数字人对话等需要方言交互能力的场景。

技术架构上,TeleTTS采用"文音统一建模"方案,引入强化学习优化场景鲁棒性,并实现了实时流式生成与多语言统一。评测数据显示:普通话朗读字准确率98.71%,英文朗读97.22%,中英混合场景下准确率分别达92.72%和89.90%,较Z公

newsPicUrl

注:测试结果来自星辰通用人工智能实验室

多方言TTS的评测尤为值得关注。从读音准确率、声音自然度、口音地道程度三个维度与真人录音对照:除广州话外,其余4种方言读音准确率均达99%以上(相对真人保持99.84%-99.95%);声音自然度相对真人达92%-98%,归一化MOS分4.61-4.93;口音地道程度相对真人达93.5%-95.77%

newsPicUrl

注:测试结果来自星辰通用人工智能实验室

这意味着模型不仅能"读对",也能保留鲜明的地域口音特征——这在方言TTS领域是一个硬指标。

技术积淀与规模落地:从国内首个30种方言混说模型到亿级业务场景的落地验证

星辰通用人工智能实验室语音技术研发中心已构建起自主可控的全栈智能语音技术体系。团队于2024年5月发布业内首个支持中英及30种方言自由混说的语音识别大模型,成功突破传统"单一方言单独建模"的技术范式,引领了行业从单方言模型向多方言统一模型演进的方向。

截至目前,该中心已获得数十项核心专利,发表高水平论文20余篇,在Interspeech 2024离散语音单元建模挑战赛、ICASSP 2026类人情感对话竞赛等四项国际赛事中斩获冠军。星辰语音大模型作为中国电信"三全"大模型体系的核心组成部分,成功入选  "2025年度央企十大国之重器"  。

目前星辰语音大模型在万号客服、通信助理、智能终端、政务热线、智能会议等多个业务中完成规模化落地,月调用量超过4亿次。其中,号百通信助理是最大调用场景,月调用量约 2.3 亿次;天翼智屏月调用量约 1.2 亿次以上;万号智能客服超自然TTS月调用量约 7100 万次,同时多方言ASR 已支撑 近万路坐席智能辅助。亿级调用量背后,是一套在真实生产环境中反复打磨的工业级语音能力,星辰语音大模型此次上线模力方舟,真正具备了"上线即可用、调用即可靠"的产业底气。  

未来,模力方舟将围绕模型体验、API 调用、应用开发和国产算力适配等环节,与中国电信星辰基础大模型持续协同,让更多模型能力通过平台进入开发、测试和业务验证流程,为开发者、高校和企业用户提供更完善的 AI 实践平台。