解密:大模型背后的推手

6月27日,来自中国人工智能学会、联想和英伟达的专家在“从ChatGPT看大模型训练背后的算力推手”云端研讨会中共同探讨了ChatGPT引发的算力需求背后的故事,并展望了生成式人工智能的发展前景。

在发布不到两个月的时间内就拥有了1亿活跃用户,让ChatGPT成为了有史以来用户数量增长最快的应用,也让人类从此进入了AI的“iPhone时刻”。

通过使用大模型算法和大量数据训练,ChatGPT不仅上知天文、下晓地理,还能根据聊天场景的上下文与人类进行交流互动,这样前所未有的功能引发了公众对于大模型训练应用的热情,各大厂商也纷纷进入大模型训练赛道。然而,大模型训练对于算力有着极高的要求,算力需求因此出现了迸发式增长。

6月27日,来自中国人工智能学会、联想和英伟达的专家在“从ChatGPT看大模型训练背后的算力推手”云端研讨会中共同探讨了ChatGPT引发的算力需求背后的故事,并展望了生成式人工智能的发展前景。

详解ChatGPT

北京邮电大学教授、中国人工智能学会高级会员张成文介绍了ChatGPT大模型的技术及其发展趋势。

解密:大模型背后的推手
北京邮电大学教授、中国人工智能学会高级会员张成文

张成文表示,在经历了蒸汽化、电气化、自动化为特征的三次工业革命之后,我们已经进入了以智能化为特征的第四次工业革命时代,ChatGPT正是第四次工业革命的一个标志性成果,而以ChatGPT为代表的AI大模型也被认为是一种颠覆性的技术,它不仅能够创造全新的价值,也具有全新的范式。

张成文指出,全新范式的体现方式之一就是技术原生,也就是当前的业务要基于该技术重做一遍,未来的业务要以该技术为基础进行设计与实施。目前企业正在从与AI相结合的阶段进入到AI原生阶段。因此,以大模型能力为基础来开发AI产品的AI原生应用,有了“颠覆”传统AI应用的机会。AI原生应用将会超越现有的仅支持AI辅助嵌入的应用。

“ChatGPT引发了新一轮AI算力需求的爆发。”据张成文介绍,大模型对算力的需求主要体现在训练和推理两个层面。根据OpenAI团队2020年发表的论文显示,训练一次1750亿参数的GPT-3所需的算力约为3640 PFlop/s-day(如果每秒计算一千万亿次,需要计算3640天),算力成本超过460万美元。

另外,ChatGPT在运行中需要不断调优,才能确保一直处于最佳应用状态。预计ChatGPT一个月微调所需的算力至少为1350 PFlop/s-day。2023年1月ChatGPT的运营算力成本已经高达890万美元。

根据OpenAI发布的分析报告,2012年以来,AI训练的算力需求每3-4个月就会翻倍,从2012年至今,AI算力增长已超过了30万倍。因此,算力成了AI突破的关键因素。

张成文还预计,未来大模型将向自主代理GPT和多模态具身智能两个方向发展。

联想:愿做大模型的“生产车间”

联想研究院人工智能实验室主任研究员王奇刚分享了生成式AI及大模型赋能行业智能化转型的情况。

解密:大模型背后的推手
联想研究院人工智能实验室主任研究员王奇刚

王奇刚介绍,AI学习知识的方法主要分为监督学习和非监督学习两种。监督学习的数据是有标签的,AI通过学习过往的知识可以预测未来。非监督学习的数据没有标签,AI通过发现数据的共性特征,进行聚类或生成。

模型也分为两类:判别式模型和生成式模型。判别式模型可以学习数据和标注之间的关系,给该模型输入新数据时,它能够输出与原始标注类似的新结果。生成式模型可以学习统计规律,在输入图片、语音等非结构化数据时能够输出新内容。生成式模型通常会伴随大量的非监督学习。

王奇刚指出,近年来涌现出了很多生成式模型的应用,如文本、图片、声音、视频、代码的生成,企业可以利用生成式模型来写邮件、写文案、做海报等等。而ChatGPT的发布则让我们从深度学习时代进入到了通用人工智能时代,也就是AGI时代。

作为大语言模型的一类,ChatGPT(GPT3.5)从GPT1发展到GPT4时,参数量从1.17亿增长到了1-1.7万亿,对于算力的消耗也成倍的增长。

王奇刚表示,在大模型时代,联想的愿景是做大模型的“生产车间”,做一套工具给到用户。借助这套工具,用户只要上传数据,无需自己编写代码,点点鼠标就可以产生自己的大模型,并为用户内部提供大模型服务,这样就避免了用户数据外泄的风险。联想还可以帮助用户去训练、微调大模型,让大模型能够满足用户的各种需求。如果用户是软件公司,联想也可以帮助用户实现类似微软Copilot的应用。

事实上,联想很早就研发出了一个叫炼AI大师的软件产品,它既是GPU服务器的集群管理软件,也是AI算法的开发平台。在大模型时代,联想将这套工具链延伸到大模型,让用户可以通过联想完备的流程,轻松训练出大模型的各种功能。目前联想已经实现了AIGC文生图应用和类似ChatGPT的对话应用,其中大模型LLM实现了一般指令、网页生成、代码生成、表格生成、回答问题、计算、多轮对话、多模态对话理解等功能;大模型AIGC则实现了可控生成、姿态控制、任意位置修改、多条件控制、高质量生成、定制化图像生成等功能。

王奇刚还透露,以上只是联想在大模型领域中所做的一小部分事情,在今年10月举行的联想Tech World大会上将会发布更多AI相关信息。

此外,英伟达资深系统架构师胡麟也在会上介绍了大语言模型和英伟达相关的训练、推理技术以及解决方案。

唯有与时俱进,才能不被时代淘汰。在这个通用人工智能时代,及时把握大模型带来的新机遇,企业才能在市场上赢得先机。据透露,联想将在9月左右发布全新的系列人工智能服务器产品,将帮助企业更便捷的应用各种人工智能服务,让我们共同拭目以待!

来源:业界供稿

0赞

好文章,需要你的鼓励

2023

07/04

15:37

分享

点赞

邮件订阅