武汉大学研究团队提出了FRANK模型,一种无需训练的方法,能让视觉语言大模型获得推理和反思能力。研究发现多模态模型中,浅层解码器负责视觉理解,深层负责文本推理,据此设计了一种层次化权重合并策略,将视觉模型与推理模型智能融合。他们通过泰勒展开推导出闭式融合权重公式,并引入注意力引导的指数衰减先验,使模型既保留视觉感知又获得推理能力。实验显示FRANK-38B在MMMU测试中达到69.2%准确率,超越GPT-4o,且展现出卓越的自我纠错能力,为多模态AI提供了无需昂贵训练的新途径。
ByteDance和中国科学院的研究团队提出了Diffusion ConvNet (DiCo),一种完全基于卷积神经网络的扩散模型架构,实现了图像生成任务中质量与效率的双重突破。研究发现DiT模型中的全局自注意力机制存在冗余,通过引入紧凑通道注意力机制,解决了卷积模型中的通道冗余问题。在ImageNet基准测试中,DiCo-XL比DiT-XL/2生成速度快2.7-3.1倍,同时实现了更优的图像质量,证明了纯卷积架构在扩散模型中的巨大潜力。
本次推出的新品,除了Air系列、V3系列这两大热销产品外,更有全彩AI+AR眼镜雷鸟X3 Pro,产品突破芯片、交互、空间计算、重量与光学显示五大核心技术难题,并开创性地引入可视化Live AI和安卓虚拟机,带来全新的眼镜应用生态。
WiseTech以21亿美元收购E2open,借其云平台支持6000多家企业、跟踪180亿笔交易,旨在增强物流软件竞争力,预计2025年底完成交易并提升盈利水平。
本文探讨如何借助人工智能和数据科学实现医疗研发、生产及护理的极速升级,通过提高数据采集、处理与解读能力,为患者带来精准诊疗和创新药物,同时解决技术普及难题。
SAP今日宣布与阿里巴巴集团达成战略合作,共同加速云转型。根据合作协议,阿里巴巴集团将采用 SAP ERP私有云版本,来构建其企业基础架构。同时,双方还将开展联合市场拓展战略,旨在助力全球客户加速实现价值转化。
微软为记事本、画图和截屏工具引入了 AI 增强功能,可实现文本生成、贴纸创作和自动优化截屏。记事本和画图的新功能仅面向 Microsoft 365、Copilot Pro 用户及 Copilot Plus PC,而截屏工具功能对所有人均开放。
本文介绍了微软最新开源协议 NLWeb,它利用现有结构化数据,将网站转变为支持自然语言交互的 AI 应用,为企业构建 agentic AI 提供新路径,同时对比了当前其他 AI 协议的特性与优劣。
文章详细分析了企业在推广代理型人工智能时面临的基础设施高投入、技术整合、专才匮乏以及后续管理等挑战,并探讨了如何构建完善生态系统以实现实际业务价值。
文章探讨了人工智能如何瓦解知识工作者的传统职业与身份,促使他们重新定义自我、发掘机器难以替代的人文优势。
英伟达为应对出口限制,正在研发基于 Blackwell 架构但规格较低、成本较低的新型 AI 芯片,计划6月开始量产,抢占中国市场。
这项研究揭示了熵最小化作为单独目标可显著提升大型语言模型在数学、物理和编程任务上的推理能力,无需任何标记数据。伊利诺伊大学厄巴纳-香槟分校的研究团队提出三种方法:无监督微调(EM-FT)、基于熵奖励的强化学习(EM-RL)和推理时优化(EM-INF)。实验表明,这些方法在某些任务上甚至超过需要大量标记数据的先进技术,证明许多预训练模型已具备被低估的推理能力,只需简单的熵最小化即可激发。
大联大成功跻身英国品牌评估机构Brand Finance 5月9日发布的“2025中国品牌价值500强”榜单并位列第218位。
这篇文章介绍了马里兰大学研究团队开发的BLEUBERI方法,该方法惊人地发现被认为过于简单的BLEU评分系统在指导大语言模型遵循指令方面非常有效。研究表明,当使用高质量参考答案时,BLEU与人类偏好的一致率可达74.2%,几乎与复杂的奖励模型相当。基于此,团队开发的BLEUBERI方法在多个基准测试中表现与传统奖励模型方法相当,且在事实准确性方面表现更佳。这一发现为语言模型对齐提供了更经济高效的途径,无需大量人类标注数据和复杂的奖励模型训练。
VerifyBench是首个专门评估大语言模型基于参考的奖励系统的基准测试,填补了现有奖励评估基准的关键空白。由浙江大学、美团等机构联合开发,包含VerifyBench和更具挑战性的VerifyBench-Hard两个数据集。研究发现虽然大型模型在标准案例上表现出色,但在复杂案例上仍有显著改进空间。该基准测试通过精心构建的数据集和评估框架,为提升大模型推理能力提供了标准化评估工具,对强化学习训练具有重要意义。
BANDITSPEC是一项创新研究,将多臂赌博机算法应用于大型语言模型的推测解码过程,实现了无需训练的自适应超参数选择。研究团队通过理论分析和实验证明,该方法能在各种基准测试中显著提升模型推理速度,比现有方法快13-19%,并能适应不同类型的输入提示。这一技术为提高AI系统效率开辟了新路径,使未来的AI助手能更智能地适应各种任务需求。
这篇博客解析了Datadog公司开发的TOTO模型,一款拥有1.51亿参数的时间序列预测基础模型,专为可观测性数据设计。研究团队同时推出了BOOM基准数据集,包含3.5亿个观测值和2,807个真实时间序列。TOTO创新性地结合了因果归一化、比例因子化注意力和学生T混合模型等技术,在BOOM、GIFT-Eval和LSF三大基准测试中均取得了最先进性能,证明了领域特定基础模型的优势。
这项由Mohamed bin Zayed人工智能大学研究团队主导的研究首次建立了针对大型音频语言模型的安全性测试基准。研究发现,当前主流音频语言模型在面对特定音频扰动时,即使是微小的声学变化也能显著降低其安全防护能力,导致生成有害内容。研究团队构建了包含1,495个对抗性音频样本的数据集,并开发了音频扰动工具包来生成更具挑战性的测试样本。实验评估了七种主流模型,结果显示没有一个模型能在所有安全维度上保持一致的鲁棒性,这为音频AI安全研究提供了重要基础和方向。
WebNovelBench研究为评估AI的长篇故事创作能力提供了突破性方法,利用4000多部中国网络小说建立基准,将AI小说家与人类作品进行直接比较。研究者设计了"摘要转小说"任务,通过八个叙事维度进行评估,发现顶级AI模型如Qwen3-235B-A22B已接近高质量人类创作水平。研究揭示了开源模型正快速追赶专有模型,并为AI创意写作评估提供了可靠标准。这项工作不仅展示了AI在叙事创作领域的进步,也为理解人工智能与人类创造力的关系提供了新视角。
这项研究提出了MultiHal,一个基于知识图谱的多语言数据集,用于评估大型语言模型的幻觉问题。研究团队从开放域知识图谱中挖掘了14万条路径,筛选出2.59万条高质量数据,并翻译成5种语言。基线实验表明,使用知识图谱增强可使语义相似度分数提高0.12至0.36点,证明了知识图谱集成对减轻幻觉的有效性。这一资源将促进未来在基于图的幻觉缓解和事实核查领域的研究。