日前,中文语言理解权威评测基准CLUE公布了零样本学习ZeroCLUE的最新结果,阿里云位于该榜单榜首。此次刷榜的模型是阿里云机器学习PAI团队推出的160亿参数的稀疏模型 GPT-MoE,这也是业界首个中文稀疏GPT大模型在该榜单登顶。
在继去年的Transformer Encoder大模型取得中文小样本学习、英文预训练模型知识量度量冠军后,今年阿里云将大模型技术能力又向前推进了一步。基于MoE稀疏结构,仅用一台A100就把160亿参数量级的多任务通用GPT模型训练成熟。这是通往低成本且高性能多任务通用自然语言理解的重要里程碑。
中文GPT大模型落地主要面临来自两方面的挑战:一方面是中文语言建模的困难,中文可以利用复杂多变的自由组合表达多重含义,这使得中文语言模型比英文在表达效率上难度加倍;另一方面随着模型参数量的不断增加,需要投入的硬件成本越来越高,训练成熟时间越来越长。
以OpenAI推出的1750亿的GPT-3为例,在1024张A100GPU上预估需要34天;因此,能否消耗更少的计算资源以高性价比的方式完成训练和推理是大模型落地亟待解决的难题。
GPT-MoE 模型采用稀疏模型的结构设计,有效缓解了上面提到的两个困难。在刷榜的过程中,从工程到算法沉淀出4点自研核心技术,有强化型稀疏均衡器,领域话术再适应驱动的中文提示语零样本学习,中文复杂任务定向优化,以及阿里云自主研发的transformer训练加速工具Rapidformer,实现了单机A100即可训练160亿参数大模型。
目前,GPT-MoE 模型已在阿里云机器学习PAI EasyNLP项目中开源,和开发者共享中文百亿稀疏GPT大模型技术。
开源项目地址:https://github.com/alibaba/EasyNLP/tree/master/examples/rapidformer
好文章,需要你的鼓励
本文探讨了利用人工智能构建去中心化互联网的可能性与挑战,强调理解背后哲学思想的重要性。文章引用 Abhishek Singh 的演讲,讨论了隐私、验证、激励、编排和用户体验的难题,并介绍了 NANDA(Networked Agents and Decentralized AI)的概念,认为去中心化模式将释放数据和计算资源,推动创新,实现科技普惠。
OpenAI CEO Sam Altman 描绘了订阅式 AI 平台的愿景,计划整合 SDK、API 及“界面”,通过不断迭代打造能整合个人全生活数据的智能模型,释放巨大财富潜力。
Zerve AI Ltd. 推出一款多代理系统,将 AI 代理从代码助手升级为全流程协作者,覆盖规划、基础设施部署、构建与发布,并内置分布式计算引擎及 App Builder,加速企业级 AI 产品开发。
文章基于九国3700余位IT决策者调研数据,揭示企业在生成式AI应用过程中在预算分配、领导任命、人才培养及变革管理等方面的趋势与挑战。