浙大团队提出PNAPO方法,通过保存AI绘图时的初始噪点,利用整流流直线特性精准还原生成轨迹,配合动态正则化策略,在FLUX和SD3-M上实现12倍训练效率提升。
2026年5月19日,联想集团正式发布天禧AI 4.0全栈技术六大焕新升级内容及联想AI主机(AI Center)。
谷歌在I/O大会上宣布开放CodeMender API的测试资格,邀请特定专家群体参与测试。CodeMender是一款AI代码安全智能体,能够自动检测并修复代码漏洞。此举被视为谷歌应对Anthropic Claude Mythos Preview在网络安全领域影响力的直接回应。谷歌DeepMind CTO表示,该工具旨在"保护全球代码库安全"。目前谷歌已与多国政府及企业展开合作洽谈,网络安全正成为各大AI实验室争相布局的核心营收方向。
谷歌拥有追踪超过600亿条商品信息的"购物图谱",并计划借助AI将其转化为个性化购物体验。在Google I/O开发者大会上,谷歌发布了多项由智能体AI驱动的购物新功能,涵盖商品发现、下单及售后全流程。新功能包括与Shopify、沃尔玛等主流平台共同开发的通用商务协议(UCP)、支持用户自定义预算的智能支付协议AP2,以及可跨平台汇总商品的"通用购物车",后者还能识别价格低点并提示商品兼容性问题。
谷歌在I/O大会上宣布,旗舰AI Ultra订阅计划月费从250美元降至200美元,同时推出100美元的新版Ultra方案。此外,谷歌发布了Gemini Spark助手工具,可跨应用完成任务,并将接入Chrome浏览器,通过Android Halo界面展示实时进度。谷歌还推出全新多模态模型家族Gemini Omni,支持文本、音频、图像和视频处理,首款产品Gemini Omni Flash即日起向付费用户开放。
谷歌在I/O开发者大会上发布了全新多模态AI产品Gemini Omni。与现有文字转视频工具不同,Omni支持文本、图像、视频等多种输入形式,可生成高度逼真的视频内容。该产品基于Gemini架构,具备高级物理模拟与视频编辑能力,支持替换视频中的单个元素。所有输出内容将自动附加SynthID水印。Omni目前已在Gemini应用、Google Flow及YouTube Shorts上线,后续将向开发者和企业开放API接入,并推出更强大的Omni Pro版本。
谷歌在I/O开发者大会上宣布,Project Genie新增基于Google Maps的街景功能。该功能整合了覆盖110个国家、多达2800亿张街景图像的数据集,让用户可以选择真实地点,并通过AI风格转换将其变成奇幻场景,例如将金门大桥变成海底世界。目前该功能仅支持美国地区,未来计划扩展至全球。此外,Project Genie现已向Google AI Ultra订阅用户全球开放。
研究揭示主流AI分割模型普遍存在"定位准但概念混"的缺陷,尤其在材质替换场景下误报率高达六七成,并提出CAFE测试基准诊断这一问题。
阿里巴巴AMAP等机构提出ACTGUIDE-RL方法,通过将人类行动数据作为计划引导注入AI智能体训练,帮助其突破强化学习中的探索障碍,性能显著优于标准强化学习基线。
MemReread是苏州大学与北京大学联合提出的长文档推理框架,核心思路是读完整篇文章后,带着子问题针对性重读,解决了现有方案中潜在证据丢失和无效检索干扰两大核心问题。
今天讲的出海案例是江波龙这家半导体存储公司,以 4608 万美元买下巴西 Zilia 剩余股权,把海外行业存储制造能力收成全资平台。
这项研究提出"反向多阶段微调"(R-MFT)方法,通过先用最难自发口语数据配合高学习率训练,使244M小模型在印度语言语音识别上超越传统方式训练的769M大模型,并发布了Vividh-ASR评测基准。
F-GRPO是一种让大语言模型在一次操作里同时完成候选生成和排序的训练方法,通过为两个阶段分配独立的评分信号,解决了混合奖励导致的学习信号污染问题。
以色列理工学院研究提出"旁观者LLM"方法,通过提取小型冻结语言模型的隐藏状态特征,结合表格预测模型,用少量历史对局预测陌生AI谈判机器人的下一步决策,效果优于直接大模型提示。
北航联合360安全实验室提出SafeHarbor框架,通过对抗规则生成和层次化记忆树,解决AI智能体安全防护中"过度拒绝"与"防护不足"的两难困境。
MulTaBench是由以色列理工学院等机构构建的多模态表格学习基准,包含40个精选数据集,专注于图片/文字与表格数据的深度融合,证明了任务感知的嵌入微调能持续提升预测性能。