日前,中文语言理解权威评测基准CLUE公布了零样本学习ZeroCLUE的最新结果,阿里云位于该榜单榜首。此次刷榜的模型是阿里云机器学习PAI团队推出的160亿参数的稀疏模型 GPT-MoE,这也是业界首个中文稀疏GPT大模型在该榜单登顶。
在继去年的Transformer Encoder大模型取得中文小样本学习、英文预训练模型知识量度量冠军后,今年阿里云将大模型技术能力又向前推进了一步。基于MoE稀疏结构,仅用一台A100就把160亿参数量级的多任务通用GPT模型训练成熟。这是通往低成本且高性能多任务通用自然语言理解的重要里程碑。
中文GPT大模型落地主要面临来自两方面的挑战:一方面是中文语言建模的困难,中文可以利用复杂多变的自由组合表达多重含义,这使得中文语言模型比英文在表达效率上难度加倍;另一方面随着模型参数量的不断增加,需要投入的硬件成本越来越高,训练成熟时间越来越长。
以OpenAI推出的1750亿的GPT-3为例,在1024张A100GPU上预估需要34天;因此,能否消耗更少的计算资源以高性价比的方式完成训练和推理是大模型落地亟待解决的难题。
GPT-MoE 模型采用稀疏模型的结构设计,有效缓解了上面提到的两个困难。在刷榜的过程中,从工程到算法沉淀出4点自研核心技术,有强化型稀疏均衡器,领域话术再适应驱动的中文提示语零样本学习,中文复杂任务定向优化,以及阿里云自主研发的transformer训练加速工具Rapidformer,实现了单机A100即可训练160亿参数大模型。
目前,GPT-MoE 模型已在阿里云机器学习PAI EasyNLP项目中开源,和开发者共享中文百亿稀疏GPT大模型技术。
开源项目地址:https://github.com/alibaba/EasyNLP/tree/master/examples/rapidformer
好文章,需要你的鼓励
帕洛阿尔托创业公司Catio在VentureBeat Transform 2025大会上获得"最酷技术"奖。该公司成立于2023年,已筹集700万美元资金。Catio推出的AI技术架构副驾驶将架构重新定义为可编码、可内省和智能演进的活体系统。通过结合实时架构地图和多智能体AI组织,帮助工程团队从被动决策转向持续主动的架构优化,为CTO和架构师提供数据驱动的架构决策支持。
这项由中国移动和Zero Gravity实验室合作的研究成功突破了大模型训练的网络带宽限制,首次实现在1Gbps网络下训练1070亿参数模型,速度比传统方法快357倍。通过流水线并行、延迟重叠机制和自适应压缩算法的创新组合,为分布式AI训练开辟了新可能。
谷歌在ISTE教育技术大会上发布超过30款AI教育工具,包括专为教育打造的Gemini应用、协作视频制作工具Google Vids扩展访问权限等。教师可利用AI技术进行头脑风暴、生成教案、个性化学习内容,还能创建定制版Gemini"助手"为学生提供额外支持。新工具还包括AI阅读伙伴、学习进度追踪、Chrome设备管理等功能,旨在通过"负责任的AI"推动个性化学习体验。
这项研究介绍了MADrive系统,一种革命性的自动驾驶场景模拟技术。该系统通过一个包含7万辆真实车辆的数据库,能够将普通驾驶录像转换成各种危险场景的高逼真度模拟,为自动驾驶系统提供安全的训练环境。实验表明,相比传统方法,MADrive在多个关键性能指标上都有显著提升,为解决自动驾驶训练数据稀缺问题提供了新思路。