近日,权威大模型评测基准 SuperCLUE 发布最新《中文大模型基准测评2024年10月报告》。其中,由中国电信人工智能研究院(TeleAI)原创打造的星辰语义大模型 TeleChat2,作为央企大模型代表,凭借出色效果,综合能力位列大模型第一梯队。

数据来源:SuperCLUE
SuperCLUE 是中文通用大模型测评基准,持续对国内外大模型的发展趋势和综合效果进行实时跟踪。本次最新的10月报告覆盖43个国内外有代表性的大模型,采用多维度、多层次的综合性测评方案,由理科、文科和 Hard 任务三大维度构成,评测题目总量超过2900道。
TeleChat2 在理科任务中展现了极强的函数调用能力,并在工具调用维度排名前二。同时,TeleChat2-35B 以更小参数量和更佳效果获得开源模型排行榜铜牌,综合效果超过多个国际知名较大参数模型。

数据来源:SuperCLUE
不仅如此,TeleChat2 系列模型重点加强了模型在指令跟随、任务拆解、工具调用等方面的能力和表现。在10月的 SuperCLUEAgent 总榜中,TeleChat2 排名并列第二。

数据来源:SuperCLUE
TeleChat2 系列是继 TeleChat 首次发布以来推出的第二代星辰语义大模型。作为最早布局并首先开源大模型的央企机构,TeleAI 始终积极通过开源推动大模型技术创新和国产化进程,并为产业持续输送领先的技术能力,加速应用落地。
今年9月,TeleAI 就正式发布并开源了首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型 TeleChat2-115B,近日又进一步开源了 TeleChat2-3B、7B和35B,以适配不同场景的应用需求,构建了全尺寸大模型开源布局。
凭借卓越的性能和开源生态贡献,星辰语义大模型在 Gitee 开源社区获得了“GVP-Gitee最有价值开源项目”。前不久,星辰大模型还被中国信息通信研究院(信通院)授予“可信开源大模型成熟度能力”认证和“2024年度央国企开源项目典型案例”称号。

信通院认证
凭借不同的参数配置和灵活的架构设计,TeleChat2 系列模型可灵活适配于不同应用场景、不同资源配置、不同延时条件、不同响应速度的多样化需求。目前,星辰语义大模型系列已在政务服务、智慧教育、经营分析、公文写作等领域广泛应用落地。
在政务场景,星辰语义大模型已应用于智能知识库、智能受理助手、智能分类助手、智能客服机器人、智能语音坐席助手等,助力政务工作提升工作效率。
在教育领域,星辰语义大模型落地教育听力机,辅助学生进行英语口语对话练习、中英文写作、中文诗歌创作等,提升他们的学习兴趣和个性化体验。
在智慧办公场景,基于星辰语义大模型的超强语义理解和总结能力,星辰慧记一站式会议助手能够一键提炼会议纪要,实现会后总结秒生成,推动企业更高效、更智能发展。
在本次参选 SuperCLUE 10月榜单的43个大模型企业中,TeleAI 是唯一的央企大模型机构,同时 TeleChat2 系列大模型是基于全国产化万卡集群和国产深度学习框架训练完成。
前不久,TeleAI 还完成了国内首个基于全国产化万卡集群训练的万亿参数大模型(万卡万参)。这一成果标志着国产大模型训练真正实现全国产化替代,正式进入全国产自主创新、安全可控的新阶段。
作为央企代表,TeleAI 肩负着加速国内 AI 创新和落地应用的重要使命,未来将继续深耕前沿技术探索,打造全球领先的大模型底座和基础能力。
坚持以科技创新为动力,以技术普惠为己任,TeleAI 将与生态伙伴、客户、开发者共同探索更多大模型与行业结合的创新路径,为千行百业的持续增长注入强劲、安全、可靠的新动力,加速数字经济高质量发展。