自ChatGPT横空出世之后,AI算法模型的热度持续升温,程序员再次成为了最炙手可热的群体。
大模型的出现同时也给程序员的工作模式带来了冲击。随着AI编程产品的普及,程序员的角色定位也在发生转变。根据 CSDN 2023年的《AI开发者生态报告》,近 90% 的开发者已经使用代码生成工具;其中,35% 的开发者每天都得使用代码生成工具。
10月24日是程序员节,我们通过对话中电信人工智能科技有限公司和中国电信人工智能研究院(TeleAI) 的三名星辰大模型程序员,从他们的叙述中了解到了电信星辰系列大模型诞生背后的故事。
他们中有资深的算法工程师,从十年前计算机视觉的风口走到现在,也有刚毕业不久的年轻程序员。作为生成式AI时代的亲历者,他们倍感幸运的同时,也在思考如何在大模型时代跟上技术的节奏。

第一位是来自于语音大模型组的算法工程师廉洁,已经有10多年行业经验的她,笑称自己是“迈入中老年”的算法工程师。她参与开发了TeleAI发布的业内首个支持超40种方言自由混说的星辰语音识别大模型,这也是国内支持最多方言的语音识别大模型。
可以介绍一下你的从业经历吗?
我在语音赛道已经有十几年了,已经算是进入中老年阶段的一个算法工程师了。
我学习的专业叫做地球物理学,但毕业之后我机缘巧合的进入了微软的语音合成组,后来又去了阿里达摩院语音实验室,从此往后这十几年就一直在做语音方向的工程算法和产品相关的工作。在智能客服、直播虚拟人、视频配音、有声读物、音频理解等应用场景都做过算法的落地和产品化。
随着2014年微软小冰的问世,智能语音交互成为了新的热点,2016年左右,神经网络学习就爆发了,故事就一直就连到现在,到现在还在往前卷,已经卷到大模型时代了。我就是经历了整个高速发展的上升期。
讲一讲你在研发星辰语音大模型的故事吧。为什么会想到要主打多方言识别?
对于电信来说,我们语音方面的主营业务是智能客服。跟声音打交道,然后又是为人服务。这几个因素综合下来,方言这个答案就已经出现了。
商业化公司,他们不会做方言,因为利润太少。但对于电信来说,作为央企我们要承担一定的社会责任,但我们也要考虑投入产出比。所以我们就在新范式下提出了一种更好的,不需要大量人工标注的预训练方案。
我们提供了这个预训练的底座并且开源,那意味着即便我们没有做的方言,如果下游公司有市场有精力,可以基于我们开源的底座,只需要投入很少量的成本就可以来支持他们自己的本地方言。比如,如果建设专注于闽南语的模型原本需要1万小时,那现在只需要500小时。
此前市场上普遍是单一模型只能识别特定单一方言,我们整体就只用一个模型,然后经过一次预训练,从而减少数据标注的这个需求。目前可以支持40个方言的语音识别。后面慢慢肯定是要引入伙伴,一起在这个开源的底座的基础上,支持更多的方言识别。
作为一名35+的程序员,同时也是一名女性,你会有年龄焦虑吗?
我经历的整个周期里,智能语音从最原始的方案到深度学习的方案,再到大模型,这个事儿其实还是落回到你个人身上。主观上,我不能先把自己淘汰,或者说我需要不断地去建设自己,让自己没这么容易被时代淘汰。
这些年一直在风口,我觉得还是挺幸运的,但同时我自己也很努力,保持不掉队。ChatGPT出来之后,现在的迭代速度要比三年前再加速2到3倍不止,因为整个的建模范式和底层的逻辑就全变了。比如之前卷积神经网络(CNN)那种结构下,我们可能就是调一调,改一改结构的连接层,上面改一点数据,两三个月出一个迭代版本。当时两三个月不看论文也跟得上,但现在基本上就三天不看就跟不上。
但同时,随着中国社会的老龄化,当市场上没有这么多年轻的劳动力,当然也希望可以看到更多社会对于大龄程序员的包容和支持。

我们对谈的第二位程序员刘欣璋无疑是冉冉升起的新星。两年前,他以校招毕业生的身份加入了中国电信。在ChatGPT横空出世之后,幸运地加入了星辰语义大模型研发项目组,并见证了星辰大模型从0到1的诞生。
介绍一下你的研发经历吧
我今年27岁,刚硕士毕业两年,上学的时候是基于AI模型做金融相关企业财报的分析。
刚入职一开始是先投入到电信的智能客服研发,然后大概入职了半年之后,开始变得特别忙,因为2022年底ChatGPT的发布,突然一阵风就刮起来了。大模型的火爆甚至带动了周边,做数据的、芯片的、基础设施的,甚至是盖机房的都火了。
ChatGPT出来之后,你做了哪些工作?
ChatGPT出来之后,我先开始做调研,从头开始搭框架,大概用了两三个月的时间我们团队先出了一个demo,就是一个简单的设计版本,我们尝试着接入这个大模型来支撑电信10000号客服的服务。
最早的时候,我demo的是1B的模型,那个时候觉得1B就是个很大的模型了,拥有对话的能力,还能当客服人员,当时就觉得这个模型挺好的了。后来尝试又去做了7B和12B的版本,那个时候第一次发现随着模型的尺寸增加也会出现各种工程上的问题,比如模型训练的速度缓慢、训练的效果不佳等问题。那段时间基本每天都在监控各类指标,尝试新的解决方案,是一个痛并快乐的积累过程。当然也积累了很多的经验,因为当时做的比较扎实,所以我们从12B一直到千亿和万亿的模型就会更顺畅一些。
这个过程中,有让你很有成就感的时刻吗?
很有成就感的时刻大概就是今年618,我们第一次把我们的千亿模型在纯国产的算力上训起来了,当时还挺不容易的。我们一开始本来是想端午节前把模型训练出来,但后来延期了,压力就比较大。经历重重挑战,目前也已经完成万卡万参大模型训练。
为了能训出来,我们去对数据做了一些精心的设计和过滤,以及对我们的模型结构做了一些更新。比如,在数据清洗上运用语种识别、数据去重、文本格式规范化、无关内容过滤、低质内容过滤等手段来提升预训练数据的质量,包括也充分去了解一些其他厂商以及开源社区里边的一些动态,来对模型进行了训练。
大模型这个方向对大家来说都是零基础。这个时候不管年纪大,年纪轻,大家都是零基础,借鉴的经验有限。当时公司给了一个比较宽松的氛围去允许我们试错,我们去做了大量的实验,去慢慢的去探索这个事情。
第一代的模型主要以内部落地为主,赋能给我们的省市公司。电信大模型已在电信内外多个场景落地,比如对内可以提升办公、生产协同效率,包括了行文写作、代码编程、网络故障分析以及经营分析等多场景。此外,语义大模型也落地了某市民生诉求场景,为市民提供在线文本问答服务。

我们对谈的第三位算法工程师张玉亭,从上一轮机器视觉的风潮开始时就在深耕计算机视觉领域,如今也是星辰视觉大模型的核心研发人员。此外,在领导的支持下,她与视觉算法组的同事们一起推动构建了面向千种场景的新一代大规模视频AI解析系统TeleSearch平台的算法研发搭建。
担任视觉算法工程师近10年,她正在尝试走出算法工程师的局限思维,走向用户了解用户,成为一名多面手。
介绍一下你的职业经历吧
我在研究生阶段学习的是计算机视觉领域,在2015 年开始接触深度学习,曾在自动化所和搜狗任职,主要从事视频结构化解析和OCR 等视觉相关工作。目前主要致力于交通场景下的算法研究以及视觉大模型的研发。
你在视觉算法也有十几年了,你观察到行业发生了怎样的变化?
16年到现在,行业在快速的变化着。数据处理方面,传统深度学习对数据量要求较高,数据采集困难,在长尾任务上精度不高。开发成本上来说,之前定制开发成本较高。而在信息检索方面,想要寻找特征目标,如同大海捞针。
现在,随着大模型的兴起,智能化渗入到日常工作中,使用大模型后数据采集和标注效率有了很大的提升,之前由于数据或模型精度无法研发的任务,可以通过大模型快速冷启动,缩短了迭代周期,可以说大模型为计算机视觉带来了更广阔的应用场景。现在多模态融合也能给用户提供更好的视觉体验。虽然现在有了大模型的加持,算法精度有了较大的突破,但是模型占用资源和实时性还有待提高,这也是我们目前努力的方向。
分享一个最让你骄傲的项目吧
传统算法存在数据获取困难、标注耗时费力的问题,即便有预标注也难以满足需求。而大模型虽然没有经过特定学习,却能知晓很多事物,我们结合这些特点,自主研发了一套Telesearch方案,通过整合多源跨模态信息,来解决数据采集难、算法精度低、任务碎片化等行业痛点。
这也算是我们组在日常工作之外,对前沿知识探索的成果吧。星辰视觉大模型现在已经融入多源跨模态信息,面向县乡综治、基层治理等安全管理单位,提供视频图像解析、视频语义检索等能力。它解决的问题包括找人找车,比如识别违规车辆,以及一些长尾问题,如道路塌陷、泥石流、森林着火等。我挺开心参与研发的产品能够助力解决长尾小模型难题。
当大模型拥有了更多的基础编程能力,你觉得人类程序员的优势在哪里?
我觉得好的程序员除了要具备专业技能之外,主要要有两点特质,一个是他可以快速地学习新技术,能够提出新颖的算法思路来解决业务问题。第二是优秀的程序员要具备问题分析和拆分能力,能够快速定位并解决问题。这两点同样也是人类程序员的优势所在。
我每次出差和客户打交道的时候,都会对算法有个新的认知。举个例子,过去涉及到车牌识别,我会说我的算法有一些应用条件,比如车牌尺寸有限制,应用场景有限制等等,但和客户打交道就知道,客户看中的是效果,要做到所见即所得。当你直面算法的应用的时候,就发现这些需求也是可以理解的,因此能够换位思考,站在客户角度思考解决算法问题。
在未来的三五年,我想成为一个更全面的程序员。我想从固定的思维模式中跳出来,对整个领域和行业有更深的了解,只有不停歇地突破,才能遇见更好的自己。
这三名程序员是TeleAI近800人研发队伍的缩影。TeleAI正在不断自研创新,加速大模型赋能千行百业。在程序员节到来之际,向所有用技术改变世界的程序员致敬。