这项研究介绍了WEB-SHEPHERD,这是首个专为评估网络导航轨迹设计的过程奖励模型。延世大学和卡内基梅隆大学的研究团队创建了包含40K步级别注释的WEBPRM COLLECTION数据集和WEBREWARDBENCH评估基准。实验表明,WEB-SHEPHERD在评估基准上比GPT-4o高出约30个百分点,并且在WebArena-lite上使用时,性能提升了10.9个百分点,同时成本降低了10倍。这一创新模型通过结构化清单将高级用户指令分解为可解释的子目标,为构建更可靠、更经济的网络代理奠定了基础。
AROS 是一款自由、开源的 AmigaOS 重现操作系统,现能以 USB 启动方式在 PC 上运行。它借助 Linux 系统与 QEMU 虚拟化技术,实现了经典 Amiga 环境的体验。
Signal利用DRM功能防止Recall自动对Signal窗口截图,从而保障聊天隐私,避免被无差别捕捉信息。
Neptune OS 基于 Debian 稳定版,采用 KDE 桌面,并预装 Flatpak 支持和现代应用,但其安装器分配了过大交换分区和冗余工具,导致磁盘空间使用吃紧与更新问题。
微软数字犯罪部门联合美国、欧洲和日本执法机关,根据美国法院命令捣毁了 Lumma 恶意软件的核心基础设施,关闭约2300个恶意域名,清除近40万台受感染的 Windows 电脑,有效切断了网络敲诈和非法盈利链路。
AnduinOS 是微软中国工程师独立打造的 Ubuntu 改版系统,通过定制 GNOME 呈现 Windows 11 风格,轻量无 Snap,适合熟悉 Windows 的用户尝试 Linux。
清华大学研究团队提出RLVR-World框架,通过可验证奖励的强化学习直接优化世界模型的预测质量,而非传统的最大似然估计。这一方法在文本游戏状态预测和网页导航中显著提升了准确率,在机器人视频预测中改善了视觉质量并减少重复问题。RLVR微调仅需几百个梯度步骤即可取得显著成效,远比传统训练高效。研究证明该框架可作为生成模型的通用后训练范式,为自动驾驶、机器人控制等应用提供更准确的环境预测能力。
这项研究揭示了强化微调(RFT)在提升大语言模型推理能力的同时,会产生一种意外副作用——"幻觉税":模型拒绝回答不可回答问题的能力显著下降,导致提供虚构答案的倾向增强。南加州大学的研究者通过创建"合成不可回答数学"(SUM)数据集,系统研究了这一现象,并发现在RFT过程中加入仅10%的SUM数据即可大幅改善模型的拒绝行为,且几乎不影响其解题精度。这一简单有效的方法不仅适用于数学推理,还能泛化到事实性问答等领域,教会模型在面对无法回答的问题时诚实地承认自己的知识边界。
这篇研究介绍了"视觉指令瓶颈调优"(Vittle)方法,该方法通过应用信息瓶颈原理,增强多模态大语言模型应对分布偏移的能力。研究不依赖增加数据量或模型规模,而是教会模型像人类一样进行"概念压缩",在保留关键信息的同时丢弃冗余细节。在45个数据集的30种分布偏移场景中,Vittle显著提高了模型的鲁棒性,同时保持了标准任务上的出色表现,且几乎不增加推理时间。
这篇研究论文介绍了"GeoRanker",这是一种突破性的全球图像地理定位方法,由香港城市大学和威斯康星大学麦迪逊分校研究人员联合开发。不同于传统方法,GeoRanker采用了距离感知排序框架,利用大型视觉语言模型对查询图像与候选位置之间的关系进行建模。核心创新在于提出的多阶距离损失,不仅考虑绝对距离还建模相对空间关系,以及构建的首个地理排序数据集GeoRanking。实验表明,GeoRanker在IM2GPS3K和YFCC4K基准测试上显著超越现有方法,在街道级准确率上分别提升12.9%和37.3%。
Anthropic CEO Amodei 在旧金山 Code with Claude 活动的新闻发布会上表示,目前 AI 模型的幻觉发生频率或低于人类,并认为这不阻碍通向 AGI 的进程。
AWE 2025将于2025年6月10日至12日在长滩举行,预计吸引5000余人、250家展商参与。会议聚焦XR与AI的深度融合,展示沉浸式技术如何走向大众市场。
这项研究揭示了大语言模型中存在"空域"——在推理过程中几乎不活跃的神经网络层。研究者开发了L2自适应计算方法,无需额外训练即可准确识别这些空域。惊人的是,在Qwen2.5-7B模型上,跳过70%的层后性能反而从69.24%提升到71.29%;Mistral-7B在GPQA测试中跳过约30%的层后,准确率提高了4.48%。这表明不同模型层的贡献极不均衡,有选择地跳过"懒惰层"不仅能保持性能,有时甚至能提升结果,为未来模型优化提供了新思路。
Vox-Profile是南加州大学和约翰霍普金斯大学联合开发的语音特征全面分析基准测试系统,能从语音中识别说话者的静态特征(如年龄、性别、口音)和动态特征(如情绪、语流)。研究团队使用15个以上的公开语音数据集和多种语音基础模型进行测试,发现在多数任务中参数量更大的模型表现更佳。该系统展示了三种主要应用:分析语音识别系统性能差异、评估语音生成系统质量,以及自动生成说话风格描述。人类评估结果表明,Vox-Profile生成的描述与人工标注相当,为语音技术研究提供了新的方向和工具。
CoIn是马里兰大学研究团队开发的创新框架,旨在解决大型语言模型商业API不透明计费问题。这些API隐藏推理过程只显示最终答案,却仍对所有"看不见"的令牌收费。CoIn通过令牌数量验证和语义有效性验证两大组件,使用户能够审计隐藏令牌而不暴露专有内容。实验表明,即使面对复杂攻击,CoIn的检测成功率高达94.7%,为商业AI服务提供了前所未有的计费透明度。
Teddy Warner 创办 Intempus,致力于为现有机器人赋予类似人类情感的生理状态,通过运动表现情绪,优化人机交互和 AI 模型训练。
本文讨论了基于 MoE(混合专家)架构与压缩技术优化大语言模型性能和成本的方案,包括内存带宽、量化及剪枝等关键技术,展示了不同硬件平台对模型运行的影响。
受AI推动用电需求激增,大科技公司纷纷投资核裂变初创企业,通过小型模块化反应堆及创新设计保障数据中心全天候稳定供电。
近年来,视频内容创作与消费显著增长,而协调视听元素对于打造优质内容至关重要。罗切斯特大学的Chao Huang及合作者开发了视觉引导的声音高亮(visually-guided acoustic highlighting)技术,解决了视觉与声音不协调的常见问题。研究团队洞察到电影中的精心制作音频可作为"免费监督信号",创建了THE MUDDY MIX DATASET数据集,并设计了基于Transformer的VisAH模型,在所有评估指标上显著超越基线方法,实现了更加和谐的视听体验。