时尚零售巨头维多利亚的秘密因安全事件导致网站和线上订单服务中断,已立即启动应急响应、邀请第三方专家协助恢复运营,实体店仍正常营业。
6月4日至5日,以“万兆光网 协同智算”为主题的2025中国光网络研讨会(OptiNet China)在北京盛大召开。
东京大学研究团队开发的WebChoreArena是一个全新的网页代理评估基准,它包含532个精心设计的任务,专注于测试AI代理处理繁琐、复杂网页任务的能力。研究结果显示,即使是最先进的语言模型(如Gemini 2.5 Pro)在这些挑战性任务上的表现也比常规任务降低了约14个百分点,证明了这一基准有效区分了不同模型的能力。WebChoreArena通过设计海量记忆、计算、长期记忆等类型的任务,为评估AI代理在实际应用场景中的表现提供了更严格的标准。
这项研究提出了一种名为LIFT的新型微调方法,通过在低秩近似后识别大语言模型中的主要权重进行稀疏微调。研究表明,仅更新5%的主要权重就能在推理任务上超越全参数微调,同时保持与LoRA相当的内存效率。LIFT在常识推理、算术推理等多项任务上表现优异,还能更好地平衡学习新知识与保留原有能力。这一方法揭示了大语言模型中关键参数的重要性,为资源高效的模型定制提供了新思路。
这篇研究从王子苏丹大学的学者团队提出了阿拉伯语言模型评估的新范式,首先建立了全面的理论指南,然后分析了现有评估数据集的不足,并引入了阿拉伯深度迷你数据集(ADMD)作为解决方案。ADMD包含490个涵盖10个领域的挑战性问题,用于评估五大顶级语言模型。结果显示Claude 3.5 Sonnet表现最佳(30%准确率),而所有模型在需要深度文化理解的领域表现欠佳。研究强调了将文化能力与技术精确性结合的重要性,为阿拉伯语NLP提供了新方向。
该研究提出了SRPO框架,一种两阶段反思感知强化学习方法,用于增强多模态大语言模型的推理能力。通过构建高质量的反思数据集进行监督微调,并设计专门的奖励机制鼓励有效反思,SRPO成功解决了现有模型在复杂推理任务中缺乏自我反思和自我纠错能力的问题。实验表明,SRPO在MathVista等多个基准测试上显著优于现有最先进模型,证明了反思导向训练可以有效扩展模型的推理能力边界。
这项研究介绍了MIKU-PAL,一种突破性的自动化多模态情感语音标注系统,能以低成本、高一致性(Fleiss κ达0.93)自动标注语音情感。研究团队基于心理学理论扩展了情感分类系统至26种类别,并发布了131.2小时的MIKU-EmoBench数据集。系统在MELD上达到68.5%的人类水平准确率,为情感语音合成领域解决了长期存在的数据瓶颈问题,推动语音合成技术迈向更自然、丰富的情感表达。
来自阿里巴巴Qwen团队和清华大学LeapLab的研究人员通过分析词元熵模式,揭示了大型语言模型推理能力背后的关键机制。研究发现只有约20%的"高熵少数派"词元像思维路径上的"岔路口",决定着推理方向。惊人的是,仅对这20%的词元应用强化学习,不仅保持了性能,在大模型上甚至超越了传统方法,在Qwen3-32B上提高了AIME测试集11.04分。这一发现超越了经典80/20法则,提供了优化大模型推理能力的全新视角。
西湖大学团队提出的梯度分组缩放(SGG)方法巧妙解决了大语言模型训练中的关键挑战。与传统方法不同,SGG动态聚类每层参数并应用特定缩放因子,既保留参数级优化又引入组级约束。实验证明,SGG在多种任务和模型规模上显著提升性能,特别是使低秩训练首次达到全秩性能水平,且具有出色的稳定性和灵活性,为资源受限环境下的大模型训练提供了实用解决方案。
RoboMaster是一项由中国香港中文大学和快手科技联合开发的创新研究,它通过"协作式轨迹控制"解决了机器人操作视频生成中的关键挑战。与传统方法不同,该系统将交互过程分解为前、中、后三个阶段,并在每个阶段明确主导对象,有效避免了特征纠缠问题。结合掩码基础的对象表示,RoboMaster不仅提高了视频真实度和轨迹准确性,还大大简化了用户交互体验。实验证明,该方法在Bridge V2数据集和野外场景中均优于现有技术,为机器人操作视频生成树立了新标准。
伊利诺伊大学香槟分校等机构的研究团队提出MiCRo框架,创新性地解决了大语言模型偏好学习的多样性问题。该框架采用两阶段方法:先通过混合建模从二元偏好数据中提取多种潜在偏好模式,再利用情境感知路由根据用户具体需求动态调整偏好权重。实验证明,MiCRo不仅能有效捕捉多样化人类偏好,且仅需少量标注数据即可实现个性化适应,在多个数据集上显著优于现有方法,为构建更具个性化的AI系统提供了新思路。
这篇来自复旦大学和字节跳动的研究介绍了ARIA方法,解决了语言智能体在开放式交互环境中的训练难题。传统强化学习在这类任务中面临巨大挑战,因为行动空间呈指数级增长,导致奖励信号极度稀疏。ARIA创新性地将语言行动从高维标记空间映射到低维意图空间,聚合语义相似行动的奖励,有效降低了训练方差。实验表明,ARIA在多种任务中平均提升9.95%的性能,同时显著提高训练稳定性和效率。
Carma Technology 针对 Uber 提起专利侵权诉讼,称其侵犯了涉及拼车系统的五项专利。案情回溯至十年前,凸显专利保护对创新者的重要性,可能对 Uber 及其他公司带来巨大影响。
经过暂停战略调整,Automattic 宣布重返 WordPress 开发,包括核心、Gutenberg、Playground 等模块,计划今年推出 6.9 版本,并涉及与 WP Engine 的法律争端。
本文指出,荷兰66%的企业网络韧性不足,特别是中小企业频遭网络攻击。在Rick van der Kleij教授看来,传统网络安全模式已失效,亟需转向强调预防、响应、恢复与适应的新模式,并加强人本因素与协作,共同提升防御能力。
本文介绍了 Meta 刚发布的 Edits,这是一款短视频编辑工具,旨在与 ByteDance 的 CapCut 竞争。文章简述了 Edits 的核心功能、操作流程及与 CapCut 的异同。
Qualys首席执行官Sumedh Thakar提出,将传统主要用于被动响应安全事件的SOC升级为基于风险管理的ROC,通过聚焦关键风险而非海量安全扫描,帮助公共部门更高效、低成本地降低潜在威胁。
全球经济正处在自动化与 AI 推动的巨大变革关口,大规模就业受冲击,而普遍基本收入(UBI)有望稳定社会、激发创新,促进经济持续健康发展。
这项研究展示了如何通过在经济问题上进行后训练,让大语言模型像经济学家一样思考,从而实现战略性泛化能力。研究团队开发了名为Recon的7B参数开源模型,通过在2,100个高质量经济推理问题上进行监督微调和强化学习,不仅提升了模型在经济基准测试上的表现,更重要的是让模型在从未直接训练过的多智能体博弈中展现出合理的战略行为。结果表明,领域对齐的后训练可以作为智能体对齐的可扩展路径,通过结构化推理问题培养出更广泛适用的理性决策能力。
STORM框架是一种创新的对话系统研究方法,通过模拟用户和AI助手之间的信息不对称来解决意图触发性问题。研究发现中等程度的不确定性(40-60%未知信息)在某些情况下能够优于完全透明,挑战了传统的AI设计假设。通过对四种主流语言模型的测试,团队确定了不同模型在处理用户意图形成过程中的独特特点,为任务导向对话系统设计提供了实用指导。这项研究对隐私保护设计和偏见缓解具有重要启示,表明信息的战略性限制可能比信息最大化更有效。