ChatGPT的爆火出圈,让大模型走出专业领域,进入更普适的圈层,并引发更多人关注和思考这项技术究竟会如何影响人类社会。最终全社会形成共识:这是一项革命性技术,将充分释放智能生产力,推动人类社会进入到一个全新AI时代。商业机遇来临,谁能率先把握住风口,意味着谁将在下一轮市场竞争中取得优势占位。今年以来,神州数码也积极拥抱大模型带来的全新变化,时刻关注技术发展动态,升级自有知识产权产品,加速布局人工智能算力等领域,切实抓住AIGC时代变革机遇,谋求全新发展。
在刚刚结束的2023数字生态大会上,神州数码副总裁、CTO李刚受邀出席,与多位行业专家就大模型技术的深入应用以及模型评估等话题,进行了深入探讨。本文就李刚讨论内容进行整理编辑,希望能给火爆市场一些启发和思考。
以下为详细内容整理:
大模型发展需重视Native场景,避免路径依赖
大模型与其他新技术出现以后,大家第一反应都是“+”,“大模型+”这个说法并不新鲜,因为之前有互联网+,所以大家从这个角度直接切入是很自然的。
大模型是百年来颠覆性的技术范式转变,我认为它真正的应用场景还没有出现,“+”的场景不是最好的场景,以前互联网爆发的时候,最后跑出来的都是互联网Native的应用,大模型真正的应用场景也应该是Native的场景。我们寻找Native场景,要避免路径依赖,也就是要避免模仿以前的模式和路径来探索大模型的应用场景。
目前大模型技术还没有完全成熟,我们还看不到它未来的发展顶点在哪儿。我认为要关注一个非常大的、Native的场景是多模态,在企业里面,多模态几乎是没有人去想,那多模态会出现什么场景,这个是要关注的。神州数码关注大模型的时候,首先成立了一个追踪团队,组织一帮人关注行业动态,看论文写周报,如果论文内容可验证就第一时间进行验证。其次是做敏捷,模型要想在企业里面用,需要做出一套敏捷平台,让企业去试,同时把客户Involve进来共创。我们现在已经签了一些共创客户,让客户使用敏捷平台,在共创过程中去摸索最适合的场景。最后作为一个科技企业还是要第一性原理,两头跟住,一方面是研究的跟进,一方面是场景的跟进。
大模型评估专业又前沿,注重知识本身和涌现能力
大模型评估本身就是一个非常前沿的领域,虽然现在已经有一些评估方法和标准出现,但站在企业角度,这些方法和标准还不够,所以模型评估本身就是一个研究方向。
目前行业里做模型评估主要围绕两点进行,针对外部模型进行评估,主要是通识能力评估,包括知识本身和涌现能力两部分。在行业大模型方面,它的行业知识评估相对简单,但行业涌现能力,是一个专业性很强的话题。举个例子,我们在金融行业做了一个行业大模型,它的涌现能力是什么呢?通用大模型的涌现能力,比如我们给它一道奥数题,它能够解出来,这就很厉害了。
行业大模型一般来说是通过通用大模型做全参,或者是做fine-tuning,做好了以后出来的这个大模型叫行业大模型。这个做好了以后,是不是说通用能力加行业知识等于行业涌现能力?这是个问题。我们讲风控,如果不是风控应用,而是行业大模型直接提供风控能力,这就是一个非常大的涌现出来的能力。它不是说只是看到了这些东西,他会直接对业务做一个风控评价,那这个就很难。
传统来说,都是用传统的机器学习做成的小模型来做,能不能泛化到大模型里面去做?这个是涌现出来的吗?这就非常难。所以现在是一个选择和共创的问题,选择愿意在大模型里面跟我们一起做研究的,大家一起探索、共创。
好文章,需要你的鼓励
AI技术的最新应用展示了其在日常办公场景中的强大能力。用户现在可以通过简单的截图操作,让AI智能识别和提取图像中的时间、地点、事件等关键信息,并自动创建相应的日历事件。这种功能大大简化了日程管理流程,提高了工作效率,代表了AI技术在实用性和智能化方面的重要突破。
香港理工大学研究团队提出ZeCO技术,通过创新的All-Scan通信机制解决了分布式AI系统处理超长文本时的通信瓶颈问题。在256台机器上测试时,ZeCO比现有最先进方法快60%,通信时间快4倍,实现了接近理论最优的性能,为超长文本AI应用开辟了新可能。
最新调查显示,91%的AI用户都有首选的聊天机器人工具。其中ChatGPT以28%的占比位居榜首,其次是谷歌Gemini(23%)、Meta AI和亚马逊Alexa(各18%)、苹果Siri(16%)。用户主要将这些AI工具用于撰写邮件、研究感兴趣话题和管理待办事项。报告指出,61%的美国人在过去半年内使用过AI,19%的人每天都在使用。
耶鲁大学团队首创AI论文审稿基准测试系统LIMITGEN,通过人工植入缺陷和真实审稿数据两套测试集,系统评估大语言模型识别科学论文局限性的能力。结果显示AI审稿准确率约52%,远低于人类专家的86%,但检索增强技术和多智能体协作显著提升了性能,为AI辅助学术评议提供了新思路。