2020年7月9日,2020年世界人工智能大会(the World Artificial Intelligence Conference, WAIC)云端峰会正式开幕,IBM的人工智能辩论系统“IBM Project Debater”荣获大会最高奖项——卓越人工智能引领者奖(Super AI Leader,简称SAIL奖)。
下面我们就来聊聊在这次世界人工智能大会上备受瞩目的IBM Project Debater所使用到的技术NLP。
自然语言对人工智能提出了独特的挑战。 尽管语言是由语法使用和拼写规则控制的,但这些规则并不总是被遵循,而且不同的语言有不同的规则。 即使遵循了规则,结果也常常具有模糊的含义。 自然语言处理系统要掌握自然语言,就必须能够对新文本进行归纳和推理,并能识别上下文中不同单词之间的关系。
IBM是自然语言处理(NLP)技术的领导者,它使计算机系统能够学习、分析和理解人类语言的情感、方言、语调等多个方面。 我们的研究团队负责开发 IBM推出的许多 NLP功能,包括用于文档理解的 Watson Discovery、用于虚拟代理的 Watson Assistant以及用于高级情感分析的 Watson Natural Language Understanding。 IBM Research还支持 IBM计划发布的技术,以帮助企业识别和提取合同等复杂业务文档中的信息。
IBM Research对 NLP的贡献远远超出了我们自己的产品。 我们在诸如问答、面向任务的对话和总结等领域为更大的研究社区提供关键语言理解基准方面发挥着领导作用。 我们积极为组织外的研究人员提供数据集,我们的数据集代表了企业面临的现实挑战,而不是通常在开放领域数据中发现的更通用的基准。
IBM Research的项目辩论者在推进最先进的 NLP方面起着关键作用。 2018年6月,我们在有史以来第一次直播的人工智能与人类之间的公开辩论中向世界介绍了“辩论项目”。 对许多人来说,这种表现让他们大开眼界,因为我们证明了人工智能可以快速构建事实论证,考虑反驳论证和反驳——所有这些都是我们每天使用的自然语言。 我们把“Project Debater”的发布看作是下一步——尽管这一步很重要——向世界各地的企业交付具有强大自然语言处理能力的人工智能的旅程。
随着IBM宣布将开始将为 Project Debater开发的 NLP特性集成到 Watson, IBM Research再次将独特的技术从实验室交付给企业。
现在,使用 Watson Discovery、 Watson Assistant和 Watson核心服务的 IBM客户将能够运用高级情绪分析、新的摘要功能、高级主题群集和可定制的业务文档元素分类等能力。 比如,新的高级情绪分析功能将使Watson API现在能够识别和分析习语以及非正式演讲中使用的口语体。
我们的目标是为 IBM Watson的客户提供将“Project Dabater”的 NLP能力应用于日常工作的能力,不管是协助律师准备庭审、促进在线论坛中更多的公民讨论,还是识别是否支持投资的财务因素。
Project Debater 在剑桥
随着我们开发了 Project Debater的功能,我们通过公开演示记录了该技术随时间的成熟。 在2019年1月的 CES会议上,我们演示了项目辩论者逐群决策支持能力。在我们2019年旧金山的 THINK会议上, IBM研究中心为“Project Debater”举办了第二次现场辩论,以测试它与冠军辩手 Harish Natarajan的技巧。 11 月,在世界上最古老的辩论会——剑桥联盟,“Project Debater”增强了两个辩论队,通过提供公众提交的论据来解决问题。 这再一次强调了这项技术是如何与人一起工作的——以及如何帮助他们。
展望未来,我们的研究人员将继续发展“Project Debater”的核心 NLP能力,改善技术的能力,比如精确地找出相关材料以建立支持或反对某一特定问题的良好论点和更好的理由。 IBM Research AI的 NLP策略将继续支持 Watson的策略,我们的突破集中在掌握自然语言的所有要素上——理解、分类、检索和生成。
观看辩论者
看看《辩论者》的预告片吧,这是一部少见的幕后作品,通过一个折衷的研究团队的镜头,大胆地将人工智能带入未知领域。 哥本哈根国际纪录片电影节的官方评选。
好文章,需要你的鼓励
在基于Chiplet的架构中,可观测性正成为系统设计的关键缺失环节。多位半导体行业专家指出,AI可从硅层遥测数据中挖掘价值,但前提是架构须提供一致的检测手段、近传感器数据压缩及可编程采集能力。专家们强调,多供应商Chiplet生态系统需要标准化、安全的遥测模式,以实现跨芯片、封装和互联域的故障定位,同时保护敏感运营数据。目前,AI在遥测分析阶段已展现出显著价值,但可观测性的扩展本质上仍是架构问题。
这项研究系统比较了四种AI图像分词策略在640000张星系图像上的表现,发现重建质量与物理属性预测能力之间存在根本性解耦,为天文基础模型的分词器选择提供了实验依据。
生命科学企业在全渠道战略和AI平台上投入巨大,但成效往往不尽如人意。问题根源不在于技术本身,而在于组织架构、数据治理和工作方式未能同步演进。许多转型项目止步于试点阶段,原因是各部门数据孤立、职责不清。要实现从传统CRM向智能互动的真正转型,企业需优先建立统一的数据基础和跨团队协作机制,并将AI能力嵌入日常工作流程,而非将其视为独立模块。
阿里Qwen团队研究如何将大模型的规模化训练思路迁移到机器人操作领域,通过统一多机器人表示与38100小时数据预训练,让机器人在陌生场景和陌生机型上也能完成复杂操作任务。