阿里达摩院发布VideoLLaMA3,这是首个采用"以视觉为中心"设计的多模态AI模型,能够同时理解图像和视频内容。该模型通过四阶段训练和任意分辨率视觉标记化等创新技术,在多项图像和视频理解基准测试中取得突破性成绩,特别是在数学推理方面提升显著。VideoLLaMA3为教育、医疗、内容创作等领域提供了强大的视觉理解能力。
新加坡国立大学研究团队提出GuardReasoner,这是首个基于推理的AI安全防护系统。该系统让AI守门员学会思考和解释判断过程,性能比现有最先进系统提升20%以上。通过12.7万样本和46万推理步骤的训练,GuardReasoner不仅能准确识别有害内容,还能处理新型攻击并提供透明的解释,为AI安全防护开辟了新方向。
清华大学团队开发出革命性的张量积注意力技术,让AI系统学会"智能遗忘",将传统AI的完整记忆模式转变为类似人脑的选择性记忆。该技术通过巧妙的数学分解,将复杂信息压缩为关键特征,在保持甚至提升性能的同时,内存占用减少90%,处理速度显著提升,特别适用于长文档处理,为AI应用的普及和效率提升开辟了新路径。
上海AI实验室联合多所知名大学推出OS-Genesis项目,创新性地提出"反向任务合成"方法来训练GUI智能体。该方法让AI先自由探索应用界面,观察操作效果,然后反推出训练任务,彻底改变了传统的预定义任务训练模式。实验显示,这种方法在AndroidWorld等复杂测试环境中将智能体成功率从9.82%提升到17.41%,接近翻倍的性能提升证明了探索式学习在GUI智能体训练中的巨大潜力。
耶鲁大学研究团队开发了MMVU测试系统,专门评估AI模型的专业视频理解能力。该测试包含3000道专家出题,覆盖科学、医疗、工程等27个学科。测试结果显示,最先进的o1模型准确率达80%,接近人类专家开卷考试水平,但大多数模型表现远低于人类专家,揭示了当前AI在专业领域应用中的局限性和改进方向。
这项由美国AI安全中心和Scale AI等机构联合开展的研究,创建了迄今最具挑战性的AI学术能力测试基准。该测试包含2500道专家级题目,涵盖数十个学科领域,由全球近千名专家贡献。测试结果显示,即使是最先进的AI系统表现也非常有限,准确率普遍在个位数,同时存在严重的"虚假自信"问题。研究揭示了AI系统与人类专家在深度学术能力方面的巨大差距。
阿里巴巴与香港中文大学合作开发了SCRIT系统,让AI大模型学会自我评判和纠错。该系统通过对比学习机制,先分析标准答案理解关键概念,再评判学生解答,配合自我验证确保质量。在数学和科学推理测试中,评判准确率提升10%,错误识别能力提升19%,开创了AI自主改进的新方向。
阿里巴巴Qwen团队发布Qwen2.5-1M系列AI模型,实现百万字符长文本处理能力突破。该系列包含开源的7B和14B模型以及API版本Qwen2.5-Turbo,通过创新的训练策略和推理优化技术,让AI能够同时理解相当于四本《哈利·波特》篇幅的内容,并在多项长文本基准测试中超越GPT-4表现,为处理复杂文档分析、大型代码库理解等实际应用提供了强大支持。
KAIST研究团队开发的VideoRAG系统实现了人工智能在视频内容理解上的重大突破。该系统能够直接从海量视频中检索相关内容并生成准确答案,解决了传统方法只能处理文字和图片信息的局限。通过智能帧选择和多模态信息融合技术,VideoRAG在问答准确性上显著超越现有方法,为教育培训、技能学习等领域提供了全新的智能问答解决方案。
俄国科学家开发出共享记忆变换器(SRMT)技术,通过让机器人共享记忆而非直接通信来实现协作。该技术受人类大脑全局工作空间理论启发,让每个机器人都能访问共同的记忆池。在多项测试中,SRMT显著优于传统协作方法,特别是在稀疏奖励环境下表现突出,并展现出优异的泛化能力。该技术有望应用于物流仓库、自动驾驶、搜救等需要多智能体协调的实际场景。
香港大学与快手科技联合开发的GameFactory系统实现了革命性突破:用户只需文字描述就能生成可操作的互动游戏。该系统通过创新的"风格-动作解耦"技术,让AI既能理解游戏控制逻辑,又能适应任何场景环境,从《我的世界》训练数据成功泛化到樱花森林、雪山、室内等开放域场景。这项技术有望大幅降低游戏开发门槛,让任何人都能成为游戏创造者,为娱乐产业带来颠覆性变革。
阿里巴巴研究团队发现传统AI专家混合模型训练中存在"大锅饭"问题:系统在每个小数据批次中都强制专家均衡分工,阻碍了专业化。他们提出全局批次负载均衡方法,让专家在更大数据范围内实现专业化分工,实验显示新方法显著提升了模型性能和专家专业化程度,同时只增加不到3%的计算开销。
阿联酋穆罕默德·本·扎耶德人工智能大学研究团队开发出LlamaV-o1,这是一个能够像人类一样进行分步视觉推理的AI系统。该系统通过课程学习和束搜索技术,不仅能给出正确答案,更能清晰展示每一步思考过程。研究团队还创建了包含八个领域超过1000道题目的VRC-Bench评测基准,不仅评判答案准确性,更重视推理过程质量。实验显示,LlamaV-o1在多项任务中表现优异,推理速度比同类方法快5倍,为构建可信透明的AI系统提供了重要突破。
这项由清华大学和微软亚洲研究院合作完成的研究,通过创新的动态知识蒸馏和选择性遗忘机制,成功解决了AI系统在学习新任务时会遗忘旧知识的"灾难性遗忘"问题。该技术让AI能够像人类一样进行终身学习,在掌握新技能的同时保持对已有能力的熟练程度,为智能手机助手、自动驾驶、医疗AI等领域的应用带来重大突破,推动AI从静态工具向智能伙伴的转变。
清华大学研究团队开发出突破性的三维旋转优化方法,通过四维空间处理解决了困扰计算机图形学几十年的"万向节锁死"问题。该方法将旋转路径缩短15-25%,显著提升动画自然度,在用户测试中获得更高评分并能减少VR晕动症。技术已可实用化,预计将改善电影、游戏、虚拟现实等领域的视觉体验。
英美两国签署科技繁荣协议,推动人工智能、量子和核技术发展。英国政府投资440亿英镑,微软、英伟达、谷歌、OpenAI等承诺投资310亿英镑,目标建设欧洲最大AI工厂。协议包括联合研究计划,开发AI模型用于癌症等疾病的靶向治疗。英伟达将在12个月内向英国提供12万块GPU,OpenAI部署8000块GPU并计划扩展至6万块,微软投资220亿英镑建设英国最大AI超级计算机。
亚马逊宣布推出全天候AI代理,升级卖家助手工具,帮助第三方卖家运营业务。该AI助手不仅能监控账户健康状况和库存,还能制定策略并在授权下采取行动。功能包括标记滞销产品、分析需求模式、提供发货建议、确保产品合规等。亚马逊还将代理AI引入广告领域,允许卖家通过对话提示开发广告。这是亚马逊为第三方卖家推出的最新AI工具。
谷歌宣布为大学生免费提供最先进AI工具,这是科技巨头塑造未来劳动力的多亿美元竞争最新举措。通过10亿美元三年投资,谷歌AI教育加速器为美国大学生提供Gemini 2.5 Pro培训认证。这标志着高等教育从ChatGPT出现后的广泛禁用转向机构合作。微软、IBM等企业也在争夺AI人才,通过免费工具、培训项目和认证体系吸引学生。成功将取决于哪个生态系统能最好地为学生职业发展提供实际价值。
前Twitter产品负责人Kayvon Beykpour推出AI驱动的代码理解引擎Macroscope,旨在帮助开发者和产品负责人总结代码库更新并捕获漏洞。该工具通过GitHub应用访问代码库,使用抽象语法树分析代码变化,结合大语言模型提供自然语言问答功能。产品定价为每月每个活跃开发者30美元,已获得3000万美元A轮融资。
AI安全公司Irregular宣布完成8000万美元融资,由红杉资本和Redpoint Ventures领投,公司估值达4.5亿美元。该公司专注于AI模型安全评估,其SOLVE框架已被业界广泛采用,参与了Claude 3.7 Sonnet和OpenAI o3等模型的安全评估。公司构建了复杂的仿真环境系统,可在模型发布前进行深度测试,识别潜在风险和新兴行为。