返回
新闻中心 detailTitleIcon 新闻详情
国内首个!全国产化千亿参数细粒度MoE语义大模型开源!
2025-12-24 11:06中国电信天翼AI

TeleChat3-105B-A4.7-Thinking,国内首个全国产化训练的千亿参数细粒度MoE语义大模型,正式开源!

问答、写作、数学、代码、Agent......多维度比肩业内头部!


newsPicUrl
代码能力提升,复杂任务拿捏住了!

面对综合任务场景,TeleChat3-105B-A4.7-Thinking 高效拆解任务需求,整合多项代码能力,一次性交付出完整可运行的代码。

省去大量人工调试时间投入,运行流畅,审美在线!

newsPicUrl

由 TeleChat3-105B-A4.7-Thinking 独立完成的射击类小游戏

newsPicUrl

由TeleChat3-105B-A4.7-Thinking 设计的视频网站页面

细粒度MoE, 术业有专攻,协同更高效!

此前,中国电信人工智能研究院(TeleAI)与中电信人工智能科技有限公司已陆续开源原创打造的 TeleChat、TeleChat2 及TeleChat2.5系列模型,以传统稠密参数架构为主,模型尺寸覆盖十亿到千亿,构建了全尺寸大模型开源布局。

上半年,星辰语义大模型的首个MoE架构模型TeleChat2-39B-A12B也正式开源,采用粗粒度MoE架构,初步实现知识模块化存储,按需唤醒相关专家模块。

为了进一步提升MoE 大模型的效率与性能,让参数利用更充分,在中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授的指导下,TeleAI科研团队以智传网(AI Flow)为理论基础,完成了TeleChat3-105B-A4.7-Thinking的全国产化训练。

该模型采用细粒度MoE架构,基础模型训练数据超10T,共包括1个共享转结案和192个路由专家(每次激活4个专家),模型整体共105B参数量,实际激活参数为 4.7B,专家稀疏比处于业界前列。

面对不同的任务类型,更加细分的专家子模块实现了术业有专攻,模块之间也实现了更精准、更任务导向的协同。

打个比方,假如大模型是个理综考生,稠密参数大模型就是从一本“十年高考真题大全”合订本里找思路,知识庞杂,效率低下。粗粒度模型,则实现了初步的学科分类和调用,减少了无效的知识调用。细粒度MoE,则是更进一步,特定的题目只调用特定的细分知识点组合,见招拆招,精准调配。

newsPicUrl

此外,TeleAI还同步开源了稠密参数模型TeleChat3-36B-Thinking模型,在知识、逻辑推理、智能体等维度实现了能力提升,并实现了文本创作、语义理解、角色扮演等任务的针对性优化。

训练黑科技拉满,收敛稳、效率优

训练方式创新

TeleAI 科研团队采用细粒度的模型初始化方式和学习率控制,对不同权重采用不同的初始化方式和学习率,加快模型在训练初期的收敛速度,增强模型在训练中的稳定性。

同时,采用课程学习的方式。

首先,聚焦低难度、高质量教育知识以及跨语言数据进行模型训练,以获得较好的模型初始性能和迁移能力。

其次,引入复杂数据,增大数学、逻辑推理、代码等数据占比,提升模型逻辑推理能力。

最后,使用高质量数据进行退火,持续提升模型效果。

newsPicUrl

在后训练阶段采用引入负载策略,在专家效果特化和专家负载之间进行权衡,减少热专家的同时保证训练效果。


国产算力优化

在 MoE 模块中,科研团队将Tensor并行域转换成专家并行域,从而将MOE的“All to All”通讯约束在节点内,提高通讯效率。

为了解决长序列训练时预训练文本拼接长度不一致带来的性能劣化,团队引入了micro级别的动态拼接,缓解计算负载的不均衡,减少了计算波动。

对于复杂的并行策略调优,则采用了自动并行工具来加速搜索、优化并行方式,节约搜索和调优成本。

目前,TeleChat3-105B-A4.7-Thinking 已经登陆 GitHub,欢迎开发者们前往体验!

开源地址:

https://github.com/Tele-AI/TeleChat3