华为开发者大会2023(Cloud)在深圳召开,华为云发布了盘古大模型3.0,为各行各业提供强大的人工智能能力。华为云人工智能领域首席科学家田奇在一档播客节目中表示,我们之前做出畅想,曾认为大模型将会成为人工智能的底座,这件事目前已经变成了现实。大模型是人工智能的操作系统,这个也是正在发生的事情。
华为云人工智能领域首席科学家田奇
田奇解释说,往上看,大模型支持更多的API和插件,就像操作系统一样,可以让开发者更方便地调用各种功能和服务,实现更多的应用场景;
往下看,大模型与软硬件更好地适配,就像操作系统一样,可以让底层的计算资源更高效地利用,降低训练和推理的成本和时间。他介绍说,盘古大模型3.0是基于华为云自研的昇腾910芯片和MindSpore框架训练出来的,这两者都是专门针对人工智能场景设计的,可以实现高性能、低功耗、高可靠性等特点。
未来看,大模型将从千行百业走向千家万户,就像操作系统一样,可以让人工智能真正普及到每个人的生活中。他举例说,现在大模型需要极大的算力来训练它,而且需要较高的成本来进行推理,很难部署到端侧的设备上,比如说手机上。但是将来,随着技术的进步和创新,可能会出现更小巧、更便宜、更强大的芯片和框架,可以让推理成本成百倍、成千倍、甚至成万倍地降低。这样一来,就可以把大模型装载在手机芯片上了。这样一旦发生,就像大型机变成了PC机一样,大模型从大厂独有的优势,能够进入千家万户,手机只是一个例子,还有很多其他的设备和场景,都可以享受到大模型带来的人工智能服务。
田奇还谈到了大模型与小模型的关系,他认为模型并不是越大越好,而是要根据不同的任务和场景,选择合适的模型。他说,大模型的优点在于它的泛化性强,可以通过海量数据记忆各种知识和规律,然后通过少量的数据进行微调,就可以针对性地提高应用的精度。小模型的优点在于它的专业性强,可以针对某个领域或者场景,进行深入的优化和定制,提高效率和稳定性。他认为,未来的趋势是大模型与小模型更好地协同,大模型更像一个内脑中枢,小模型更像具体的小功能。通过大模型的语言中枢,可以知道面对不同问题的时候,去调用什么样的专家小模型。这种大小模型的协同,大模型作为中枢决策系统来调用各种小模型,来解决行业的问题,也是将来非常值得探索的方向。
好文章,需要你的鼓励
谷歌CEO皮查伊在AI竞赛低谷期坚持"信号降噪"原则,顶住压力加倍投入,最终带领谷歌凭借Gemini系列重夺领先。他坚信AI将超越火与电的革命性影响,通过递归自我改进极大降低创意实现门槛,这场"创造力民主化"浪潮或将解锁80亿人的认知潜能。
浙江大学和吉利汽车研究院联合团队提出的FreeTimeGS是一种创新的动态3D场景重建方法。不同于传统方法,它允许高斯基元在任意时空位置自由出现,并赋予每个基元运动功能,使其能够随时间移动到相邻区域。研究通过4D正则化策略解决了高不透明度基元阻碍优化的问题。在多个数据集测试中,该方法在渲染质量和速度上均大幅超越现有技术,特别是在处理复杂动态场景时,使用单个RTX 4090 GPU能以467 FPS的速度实现1080p实时渲染,为电影制作、游戏和虚拟现实等应用提供了新可能。
李飞飞的World Labs以"空间智能"重新定义AI,专注3D物理世界理解,4个月估值飙至10亿美元,获科技巨头集体押注。她揭示语言无法编码物理世界,而DNA双螺旋等突破性发现都源于三维空间的深度认知。
这篇研究介绍了"对角线批处理"技术,该技术解决了循环记忆Transformer模型在处理长文本时的并行计算瓶颈。通过重新编排计算顺序,研究团队实现了在不破坏依赖关系的情况下进行并行计算,使LLaMA-1B模型处理长文本的速度提升3.3倍,同时内存使用减少167.1倍。这种纯运行时优化不需要重新训练模型,为实际应用中的长文本处理提供了高效解决方案。