2025年12月17日,Google DeepMind播客发布了本季收官之作。数学家Hannah Fry与公司联合创始人兼CEO Demis Hassabis进行了年度深度对话。
这项由蚂蚁集团、香港科技大学等机构研究者完成的工作提出了Ditto框架,通过创新的数据生成管道解决了视频编辑领域的数据稀缺问题。研究团队生成了包含一百万个高质量视频编辑样本的Ditto-1M数据集,并基于此训练了Editto模型。该模型在多项评估中显著超越现有方法,实现了更精准的指令遵循和更好的时间一致性,为指令驱动的视频编辑树立了新的技术标杆。
这项由阿里巴巴和中科院联合完成的研究提出了ImagerySearch,一种创新的视频生成方法,能够帮助AI生成更好的创意和想象力十足的视频。研究团队还创建了LDT-Bench,首个专门评估AI在处理奇异场景能力的基准。实验表明,ImagerySearch在处理创意场景时相比现有方法有显著提升,为AI创意内容生成开辟了新的方向。
安全不再只是事后防护的附加选项,而必须从一开始就内嵌于系统设计、技术架构以及关键决策之中,成为塑造亚太数字增长新阶段的核心基石。
PTC宣布,将在 CES 2026 上展示兰博基尼汽车股份有限公司(Automobili Lamborghini S.p.A.)如何通过 Intelligent Product Lifecycle(智能产品生命周期)优化产品开发流程,构建连接设计、工程与运营的集中式产品数据基础,并推动 AI 驱动的转型。
这项由伊利诺伊大学厄巴纳-香槟分校和Snap Inc.联合完成的研究提出了Ponimator,一个创新的AI框架,通过以两人互动姿态为中心,生成自然流畅的人类互动动作。该方法采用两个协作的扩散模型:一个从互动姿态生成动作序列,另一个从单人姿态、文字或两者结合生成互动姿态。Ponimator支持多种应用,包括真实图像中的两人互动动画、单人图像的互动生成和文字到互动的合成,在多个数据集上展现出强大的泛化能力和物理合理性。
至顶科技联合软积木、LangGPT、AIGCLink、爱智岛人工智能艺术家创作联盟、硅创社等多个AI社区共同发起的“2025年度凌云奖”,目前已进入评审的最后阶段。
这项由加州伯克利分校等机构联合完成的研究开发了MomaGraph系统,首次实现了机器人对空间关系和功能关系的统一理解。该系统通过强化学习训练,能够同时识别物品位置和操作方法,并具备状态感知能力。在综合测试中达到71.6%准确率,超越同类开源系统11.4%,在真实机器人平台上验证了实用性,为智能家庭机器人的发展奠定重要基础。
MIT研究团队提出了突破性的双向归一化流(BiFlow)技术,通过训练独立的逆向模型替代传统的精确逆向过程,解决了归一化流方法架构受限和推理缓慢的核心问题。该方法采用创新的隐藏对齐策略,让逆向模型学习高效的生成路径,在ImageNet数据集上实现了高达697倍的速度提升,同时将图像质量提升到新的技术水平,为生成模型领域带来了重要的思路突破。
MIT研究团队开发了NIGHTJAR系统,实现了"共享程序状态"编程模式,让自然语言代码能直接访问和修改程序数据,而非传统的数据转换方式。实验显示该方法比传统实现准确性提高4-19%,代码减少39.6%,但运行时间增加0.4-4.3倍。这项技术为编程范式演进提供了新方向,可能降低编程门槛,让更多人参与软件开发。
NVIDIA研究团队构建了迄今最大的数学推理数据集Nemotron-Math,包含7500万条推理轨迹,通过多模式推理和工具集成让AI在数学竞赛中达到100%满分。该研究还提出了创新的分桶训练策略,将超长文本训练效率提升2-3倍,为AI数学推理能力的突破和实际应用奠定了重要基础。
清华大学研究团队提出JustRL方法,用单阶段训练和固定参数的简单强化学习配方训练15亿参数AI模型,在九个数学基准测试中达到54.9%和64.3%的平均准确率,性能匹配或超越复杂多阶段方法,同时计算资源减半。研究挑战了AI训练中的复杂化趋势,证明简单方法的有效性。
这项由意大利布鲁诺凯斯勒基金会Sara Papi博士领导的国际研究团队,通过对21个语音翻译系统在16个基准测试中的全面比较,发现传统的分步式翻译方法在大多数情况下仍比新兴的语音大语言模型更稳定可靠,但后者在噪音环境、语言混用和不流畅语音处理方面展现出独特优势,为语音翻译技术的发展提供了重要指导。
希腊科学家开发出REGLUE技术,革命性地改进了AI图像生成。该技术通过同时整合图像重建、局部语义和全局语义三种信息,让AI生成的图像不仅视觉效果好,语义理解也更准确。核心创新是轻量级语义压缩器,能将复杂语义信息压缩200倍而保持丰富性。实验显示REGLUE比传统方法快25%达到更好效果,为AI图像生成的实际应用铺平道路。
蚂蚁集团Venus团队发布了首个全平台GUI智能交互测试基准VenusBench-GD,包含6166个测试样本,覆盖手机、网页、电脑三大平台97个应用。该基准建立了从基础识别到复杂推理的分层评估体系,测试结果显示通用AI模型在基础任务上已追平专业模型,但在高级推理任务上仍有差距,为AI界面理解能力评估提供了新标准。
这项由UC伯克利等机构开发的突破性研究,创建了首个时间序列与自然语言对齐的大规模数据集TS-Insights,包含10万个样本。他们开发的Insight Miner AI系统能够直接"读懂"时间数据图表,用普通话解释其中的趋势和规律,性能媲美GPT-4,为实现"数据分析民主化"奠定了基础。
中科大团队开发出革命性3D角色姿势变换技术Make-It-Poseable,首次实现在不到一秒内完成复杂姿势变换。该技术完全颠覆传统骨骼绑定方法,在抽象概念空间中操作角色"基因信息",避免了传统方法的变形和撕裂问题。系统特别擅长处理AI生成角色的拓扑缺陷,同时支持角色部件分离、替换和细化等编辑功能,为3D内容创作开辟全新可能。
2025年人工智能在企业中实现突破性应用,从实验阶段转向实用阶段。八位代表性CIO分享核心经验:AI工具快速进化、需保持快节奏实验思维、重视工作流程而非组织架构、数据质量成为新挑战、采用前瞻性指标管理项目、无需等待完美时机、AI既是技术也是社会文化现象、需严格项目管理、变革重在人员而非技术、多智能体架构成未来趋势。