英伟达宣布将RTX Pro 6000 Blackwell服务器版GPU引入标准企业服务器,使更多企业能够使用Blackwell技术处理AI和传统工作负载。思科、戴尔、惠普企业、联想等厂商将在其2U企业服务器系统中提供该GPU。新系统采用x86架构、风冷设计,相比仅使用CPU的系统,性能提升45倍,能效提高18倍,可将数百台CPU系统整合为少量RTX Pro服务器。
据麦肯锡报告,多数企业认为自己尚未完全准备好安全负责地使用生成式AI。首尔AI数据标注公司Datumo现专注帮助企业构建更安全的AI系统,提供无需技术专长的测试、监控和改进工具。该公司周一宣布完成1550万美元融资,投资方包括Salesforce Ventures等,累计融资约2800万美元。公司已服务三星、LG、现代等300多家客户。
Nvidia在温哥华Siggraph大会上发布了两款小型Blackwell GPU:RTX Pro 4000 SFF和RTX Pro 2000,功耗仅70瓦。RTX 4000 SFF配备8960个CUDA核心,光线追踪性能提升1.7倍,AI性能提升2.5倍,搭载24GB GDDR7显存。RTX Pro 2000拥有4352个CUDA核心,3D建模性能提升1.6倍。两款产品将由戴尔、惠普、联想等厂商集成到OEM系统中。
佳能imageFORCE赢系列彩色/黑白数码复合机和轻生产型黑白数码印刷机全面投入市场,覆盖多领域的场景化解决方案。
全新搜索方式出现,字节发布宽度优先搜索基准WideSearch,垫底的竟是DeepSeek
阿里巴巴团队推出DeepPHY,这是首个专门评估AI视觉语言模型物理推理能力的综合平台。通过六个不同难度的物理环境测试,研究发现即使最先进的AI模型在物理推理任务中表现也远低于人类,成功率普遍不足30%。更关键的是,AI模型虽能准确描述物理现象,却无法将描述性知识转化为有效控制行为,暴露了当前AI技术在动态物理环境中的根本缺陷。
AgiBot团队联合新加坡国立大学等机构开发出Genie Envisioner机器人操作统一平台,首次将视频生成技术应用于机器人控制。该系统通过100万个操作视频学习,让机器人能够预测行动结果并制定策略,在多个复杂任务上表现优异,仅需1小时数据即可适应新平台,为通用机器人智能开辟全新路径。
南华理工大学等机构联合开发的DOUBLE-BENCH是首个面向真实场景的文档检索增强生成系统评估基准。该研究发现现有评估方法存在严重缺陷,无法准确反映系统真实能力。DOUBLE-BENCH包含3276个多语言多模态文档和5168个精心设计的问题,全面测试结果显示当前系统在检索准确率和多步推理方面仍有重大提升空间,并暴露了系统"过度自信"的问题。
这项由亚利桑那州立大学研究团队完成的开创性研究,首次系统评估了大型语言模型解释幸福概念的能力。研究构建了包含43880个解释的大规模数据集,采用创新的"AI评判员"框架进行评估。结果显示:大型模型显著优于小型模型,专家解释比普通解释更具挑战性,身体健康概念最易解释而社会健康概念最难。通过微调训练,小型模型的表现可大幅提升,甚至在特定任务上超越更大规模的模型,为AI在健康咨询领域的应用提供了重要参考。
吉林大学研究团队开发ISEval框架,系统评估10个先进多模态AI模型的输入审查能力。研究发现即使是GPT-4o等顶级模型,主动错误检测率也仅4.71%,普遍存在被动接受错误信息的问题。AI在逻辑错误识别方面相对较强,但对语法错误和条件冲突识别能力极弱。面对图文冲突,大型模型展现动态调整能力,小模型则固守文字偏好。
微软和马萨诸塞大学研究团队通过系统分析六种AI模型在多跳推理任务中的表现,发现了AI推理中的普遍问题:过度跳跃、推理保真度随复杂性下降、以及正确答案与错误推理过程脱钩现象。研究建立了七种推理错误分类体系,并开发了自动化评估框架,为改进AI推理能力和构建可靠AI系统提供了重要指导。
这篇论文由东南大学等机构研究团队完成,系统性地调研了解决AI"过度思考"问题的高效推理技术。研究将现有方法分为单模型优化和多模型协作两大类,前者包括早期退出、思维链压缩、自适应推理等策略,后者涵盖模型协作、路由、整合等技术。论文详细分析了各种方法的原理和效果,并展望了在多模态推理、工具集成等领域的应用前景,为构建既智能又高效的AI推理系统提供了全面指导。
德州大学研究团队开发的PRvL系统成功将大语言模型应用于个人信息保护,实现了99.4%的识别准确率和极低的隐私泄露风险。该系统支持多种模型架构和训练策略,具备跨语言处理能力,完全开源可本地部署,为医疗、法律、金融等敏感领域提供了实用的隐私保护解决方案。
华盛顿大学研究团队发现AI面试系统存在语言偏见,会因求职者使用谦逊表达而给出更低评分,平均相差25.6%。这种偏见可能系统性歧视女性等群体,因为她们更倾向于使用谦逊语言。研究开发了三种去偏见方法,最有效的技术调整方案能减少65.8%的偏见,为构建更公平的AI招聘系统提供了解决方案。
Roblox公司开发出REINA技术,实现语音边听边翻译的突破。该技术基于信息论原理,通过智能判断何时获得足够信息来决定翻译时机,避免传统方法需要等待完整句子的延迟问题。在13万小时开源数据训练下,REINA在多语言实时翻译任务中相比现有方法提升21%,为跨语言实时交流带来新突破。
复旦大学和腾讯优图实验室联合推出StrandDesigner系统,首次实现通过手绘草图自动生成逼真3D头发的突破。该技术采用可学习多尺度放大策略和自适应条件控制机制,能处理从简单涂鸦到专业草图的各种输入,在多项指标上显著超越现有方法,有望革新游戏、影视等数字内容创作流程。
东南大学等机构研究团队通过数学分析发现传统AI训练方法存在隐藏缺陷,提出仅需一行代码修改的动态微调方法,在数学推理任务上效果提升3-7倍,甚至超越复杂强化学习方法,为AI训练效率改进提供了简单而强大的解决方案。
复旦大学联合牛津大学等机构发布MOSEv2数据集,这是目前最具挑战性的视频目标分割基准。数据集包含5024个复杂场景视频,涵盖恶劣天气、密集人群、目标消失重现等真实世界挑战。测试结果显示,包括SAM2在内的先进AI模型性能大幅下降,从理想数据集的90%+准确率降至50%左右,揭示了AI技术与实际应用需求的巨大差距。
苏州大学与阿里云联合开发CSC客户支持对话系统,通过构建包含五个服务阶段和十二种沟通策略的专业框架,创新性地采用AI角色扮演方法生成1.1万条高质量训练对话。该系统不仅能准确解决问题,还能展现专业客服的温暖贴心服务态度,实验证明显著提升了AI客服的策略运用能力和整体服务质量。
GitHub CEO声称AI将承担所有编程工作,但现实中AI编程工具实际上降低了程序员的生产效率。回顾编程语言发展史,从Grace Hopper的高级语言到Java等技术,每次重大突破都曾因资源限制和固有思维遭到质疑,但最终都证明了抽象化的价值。当前AI编程工具面临命名误导、过度炒作和资源限制三重困扰,但随着技术进步,AI将有助于消除思想与结果之间的障碍。