最新文章 - 至顶网

2025-09-13

枫清科技高雪峰：以数据为中心构建AI智能体平台，推动产业智能化升级

在AI+产业爆发前夜，枫清科技通过以数据为中心的技术路径构筑护城河。

2025-09-13

第七届中国超级算力大会ChinaSC2025将在北京开幕

11月8日，第七届中国超级算力大会ChinaSC2025将在北京开幕。

2025-09-12

让AI推理像人一样思考，但又要快得多：中山大学团队的"智能剪刀"如何给O1模型瘦身

中山大学团队针对OpenAI O1等长思考推理模型存在的"长度不和谐"问题，提出了O1-Pruner优化方法。该方法通过长度-和谐奖励机制和强化学习训练，成功将模型推理长度缩短30-40%，同时保持甚至提升准确率，显著降低了推理时间和计算成本，为高效AI推理提供了新的解决方案。

视觉语言模型在自动驾驶中的可靠性大考验：上海AI实验室深度揭秘AI司机的真实水平

上海AI实验室研究团队深入调查了12种先进视觉语言模型在自动驾驶场景中的真实表现，发现这些AI系统经常在缺乏真实视觉理解的情况下生成看似合理的驾驶解释。通过DriveBench测试平台的全面评估，研究揭示了现有评估方法的重大缺陷，并为开发更可靠的AI驾驶系统提供了重要指导。

谷歌发布Learn-by-interact：让AI智能体像小孩学走路一样自我进化的突破性方法

谷歌和香港大学研究团队提出Learn-by-interact框架，让AI智能体通过自主与环境互动来学习，核心创新是"逆向构建"机制，能将失败操作转化为有价值训练数据。在四个真实环境测试中，该方法显著提升了AI在软件编程、网页操作、桌面应用等复杂任务中的表现，为构建实用AI助手开辟新路径。

TransPixeler：让透明视频生成变成现实，Adobe研究院破解RGBA视频生成难题

TransPixeler是由香港科技大学和Adobe研究院联合开发的AI视频生成技术，专门解决生成带透明效果（RGBA）视频的难题。该技术巧妙扩展现有视频生成模型，让AI能同时生成RGB颜色和Alpha透明度信息，避免了传统"先生成后提取"方法的缺陷。通过精心设计的注意力机制和训练策略，TransPixeler在有限数据下实现了高质量透明视频生成，为电影特效、游戏开发、VR/AR等领域提供了强大工具。

人工智能

浮点数量化

缩放定律

2025-09-12

腾讯混元团队重磅发现：训练AI大模型时，浮点数的"配方"原来大有讲究！

腾讯混元团队通过366组实验发现了AI大模型低精度训练的关键规律，提出Capybara缩放定律。研究揭示指数位比尾数位更重要，存在训练数据临界值现象，4-8位精度具有最佳成本效益。该成果为AI训练提供精确预测工具，有助于降低训练成本、提升效率，推动AI技术普及化发展。

人工智能

程序驱动验证

自我纠错优化

2025-09-12

阿里巴巴研究团队突破：让AI像程序员一样"检查代码"来纠正自己的错误

阿里巴巴研究团队开发出ProgCo方法，让AI像程序员一样生成验证程序来检查和纠正自己的答案。该方法在数学问题和指令遵循任务上表现卓越，准确率提升超过7%，同时具有比传统方法更高的计算效率，为AI自我纠错开辟了新的技术路径。

推理优化

张量程序架构

小参数模型

2025-09-12

小模型也能做大事！这个1.2B参数的AI模型如何在推理任务上超越众多竞争对手

小豆科技发布的Xmodel-2是一个专门针对推理任务优化的12亿参数语言模型。通过创新的张量程序架构、WSD学习率调度和数据配比优化，该模型在复杂推理和智能代理任务上表现卓越，超越了许多同规模模型。经1.5万亿token训练，模型已开源，为资源有限的开发者提供了高效的推理工具，在客服自动化等应用中展现出巨大潜力。

人工智能

视频理解

知识获取评估

2025-09-12

南洋理工大学团队突破性发现：AI观看教学视频能否真正学会知识？

南洋理工大学研究团队构建了Video-MMMU基准，通过300个专业教学视频和900道问题，评估AI模型从视频中学习知识的能力。研究发现人类专家知识增益达33.1%，而最先进的AI模型仅达15.6%，特别在知识适应新场景方面表现不佳。该研究揭示了当前AI在真正理解和应用知识方面的局限性，为未来AI教育应用发展指明了方向。

机器人学习

强化学习

视觉语言行为模型

2025-09-12

机器人有了"新老师"：清华团队让机器人通过试错学会更聪明的操作

清华大学等机构开发的SimpleVLA-RL框架突破了传统机器人依赖大量人类演示数据的局限，让机器人通过强化学习自主试错掌握技能。该方法在数据稀缺情况下将成功率从17.3%提升至91.7%，并在真实世界中验证有效，机器人还自主发现了"推切"等创新操作方式，为机器人智能化发展开辟新路径。

人工智能

语音识别

回声训练

2025-09-12

AI语音助手为什么总是答非所求？港中深研究团队发现问题根源并给出解决方案

港中深研究团队发现语音AI系统"答非所问"的根本原因在于声学和语义理解的认知鸿沟，并提出EchoX解决方案。通过创新的"回声训练"方法，EchoX用仅6千小时训练数据就在知识问答任务中取得显著性能提升，综合得分46.3分超越主流系统，为语音AI发展指明新方向。

人工智能

视频生成

多模态学习

2025-09-12

ByteDance智能创作实验室与清华大学联手：让任何人都能制作电影级说话视频

ByteDance智能创作实验室与清华大学联合发布HuMo系统，这是首个实现文字、图片、音频三模态协同控制的人物视频生成框架。该系统通过创新的渐进式训练方法和时间自适应引导策略，让用户仅需提供文字描述、参考照片和音频就能生成电影级说话视频，在多项评测中超越现有专业系统，为内容创作带来革命性突破。

强化学习

策略梯度

智能体训练

2025-09-12

字节跳动破解AI智能体难题：让机器像人一样从经验中明智学习

字节跳动种子团队提出熵调制策略梯度EMPG方法，解决AI智能体在长期任务中的稀疏奖励学习难题。通过自校准梯度缩放和未来清晰度奖励双重机制，根据步骤不确定性动态调整学习信号强度。在WebShop、ALFWorld和Deep Search三大基准测试中，EMPG显著提升了模型性能和训练稳定性，域外泛化能力尤为突出，为复杂AI系统的可靠训练提供了新的解决方案。

人工智能

数字人生成

多模态指令理解

2025-09-12

快手团队发布Kling-Avatar：让AI真正"读懂"你的想法，生成超逼真长时长数字人视频

快手科技Kling团队发布的Kling-Avatar技术通过多模态大语言模型导演实现真正的指令理解，采用级联生成框架支持长时长数字人视频制作。该系统在唇形同步、情感表达、身份一致性等关键指标上全面超越现有技术，支持1080p/48fps输出，展现强大跨域泛化能力，为数字人直播、在线教育等应用提供突破性解决方案。

香港大学团队发布600万张图像的AI绘画推理数据集：让AI像人类一样"想象"后再创作

人工智能

深度学习

新型算法

2025-09-12

香港大学团队发布600万张图像的AI绘画推理数据集：让AI像人类一样"想象"后再创作

香港大学团队发布史上最大规模AI绘画推理数据集FLUX-Reason-6M，包含600万张高质量图像和2000万条双语描述，耗费15000个GPU天计算资源。首创"生成链式思维"训练法，让AI学会像人类艺术家般思考创作过程。同时推出PRISM-Bench测评标准，对19个先进模型评测显示闭源模型仍领先，但所有模型在文字渲染等复杂任务上都有改进空间。

南大团队打造视频界的"3D地图"：2.7万小时海量视频数据集让AI看懂真实世界的空间关系

计算机视觉

空间重建

大规模数据集

2025-09-12

南大团队打造视频界的"3D地图"：2.7万小时海量视频数据集让AI看懂真实世界的空间关系

南京大学研究团队构建了SpatialVID，一个包含2.7万小时高质量视频的大规模空间标注数据集。该数据集为每个视频片段提供精确的摄像机姿态、深度信息、动态掩码和结构化语义描述，涵盖城市、自然、室内等多样场景。通过严格的四重筛选机制和创新的几何先验增强标注流程，SpatialVID在规模和质量上都创下新纪录，为训练具有空间理解能力的AI模型提供了前所未有的数据基础，将推动自动驾驶、机器人导航、虚拟现实等领域的技术进步。