最新文章第23页

2025-07-11

AI训练数据的"营养配餐师"：中科院如何让机器学习吃得更好

这项由中科院计算所团队开发的REFINEX框架，通过创新的删除式编辑方法，解决了AI训练数据质量低的问题。该方法先用专家模型生成高质量文本，再提取删除操作训练小型编辑模型，既保证了数据质量又提高了处理效率。实验显示，REFINEX让750M参数模型性能提升2.6%-7.2%，同时显著降低训练成本。

ArtifactsBench：腾讯混元团队重新定义AI代码生成评测标准，让机器写出真正能看能用的界面程序

人工智能

视觉交互代码生成

自动化评测系统

2025-07-11

ArtifactsBench：腾讯混元团队重新定义AI代码生成评测标准，让机器写出真正能看能用的界面程序

腾讯混元团队推出ArtifactsBench，这是全球首个专门评测AI生成视觉交互代码质量的综合基准系统。该系统包含1825个真实应用场景测试任务，创新性地通过实际运行代码、动态截图、多模态AI评委等方式，从功能性、美观度、用户体验等十个维度进行评测。实验结果显示其与人类专家判断一致性超过90%，与业界金标准WebDev Arena的一致性达94.4%，为AI代码生成能力评估树立了新标准。

人工智能

自然语言处理

内容监管

2025-07-11

YouTube新政策旨在减少AI生成的低质量视频内容

YouTube计划7月15日更新货币化政策，针对"非真实"内容进行打击，主要目标是减缓平台上AI生成内容的泛滥。新政策将更好识别批量生产和重复性内容，包括仅有表面差异的旁白故事频道和相同解说的幻灯片视频。虽然YouTube强调这只是对现有"重复内容"指导原则的小幅更新，但业界认为此举主要针对低价值AI垃圾内容问题。

图像编辑

多模态大语言模型

指令分解算法

2025-07-11

突破复杂指令编辑难题：加州大学伯克利分校团队推出X-Planner，让AI图像编辑像聊天一样简单

这项由加州大学伯克利分校、香港大学和Adobe联合开展的研究，开发了名为X-Planner的AI图像编辑规划系统，解决了现有AI工具难以理解复杂编辑指令的问题。该系统能将"让图片看起来像夏天"等自然语言指令智能分解为具体编辑步骤，并自动生成精确的控制信息，显著提升了AI图像编辑的准确性和可控性。

多模态理解

视频文档处理

统一嵌入模型

2025-07-11

从看图说话到看视频聊天：Salesforce带来史上最强多模态理解新突破

本研究提出了VLM2Vec-V2多模态嵌入模型和MMEB-V2评估基准，首次实现对文本、图片、视频和文档的统一理解。该模型在78个任务上全面领先现有基线，展示了从专门化向通用化发展的重要趋势，为多媒体内容理解、智能搜索和人机交互带来突破性进展。

人工智能

预测技术

人机对比

2025-07-11

AI预测师挑战超级人类：谁能更准确地预测未来？——乔治梅森大学实证研究揭秘

乔治梅森大学研究发现，最新AI模型在预测准确性上首次超越普通人群，但仍显著落后于人类顶级预测专家。通过464个真实预测问题的测试，OpenAI的o3模型表现最佳，但"超级预测师"的表现仍是AI的六倍。研究揭示AI在政治预测上表现较好，但在经济问题上相对较弱，同时存在过度自信的问题。

AI智能体的"万能翻译官"：卡内基梅隆大学提出Mod-X架构，让不同AI系统也能无障碍交流

人工智能架构

智能体通信协议

区块链安全机制

2025-07-11

AI智能体的"万能翻译官"：卡内基梅隆大学提出Mod-X架构，让不同AI系统也能无障碍交流

这项由卡内基梅隆大学团队提出的Mod-X框架，旨在解决AI智能体之间无法有效协作的核心问题。通过分层架构设计，包括通用消息总线、语义翻译层、状态管理和区块链安全机制，实现了不同技术背景的AI系统无障碍通信。该框架采用发布-订阅模式，支持语义能力发现和动态工作流编排，为构建真正去中心化的AI生态系统奠定了基础。

企业AI助手

工具调用优化

消歧训练技术

2025-07-11

SAP实验室重磅突破：让AI助手告别"糊里糊涂"，精准识别企业工具的革命性方法

SAP实验室研究团队开发了DIAFORGE系统，通过三阶段训练显著提升AI助手在企业环境中的工具调用准确性。该方法专门解决AI助手面对相似工具时的选择困难，通过模拟真实企业场景训练AI主动澄清用户需求。实验结果显示，经过训练的模型比GPT-4o和Claude-3.5-Sonnet分别高出27和49个百分点，为企业AI助手的实际应用提供了重要突破。

人工智能

多模态生成

自动化演示制作

2025-07-11

AI智能演示制作助手：让文档秒变生动演讲视频的黑科技来了

澳大利亚研究团队开发出PresentAgent，这是一个能将任何文档自动转换为专业演示视频的AI系统。该系统集成了文档解析、幻灯片设计、语音合成等功能，并创建了全新的多维度评价体系。实验显示，AI生成的演示视频在多项指标上接近人类专家水平，为教育、商业等领域的演示制作提供了高效解决方案。

实时视频生成

流式AI模型

多模态交互

2025-07-11

Meta 让视频生成像聊天一样轻松：实时AI导演帮你随时拍出想要的画面

Meta和加州大学伯克利分校的研究团队开发了StreamDiT技术，实现了首个真正意义上的实时AI视频生成系统。该技术能够像熟练摄影师一样根据文字描述即时生成高质量视频，支持用户在生成过程中实时调整内容。通过创新的"缓冲流匹配"训练方法和高效的模型架构设计，StreamDiT在单GPU上实现了16FPS的实时性能，为视频创作、游戏、教育等领域开辟了全新可能性。

OmniDraft：高通AI研究院让小模型秒变万能助手，一个68M模型竟能给多个大模型当"草稿员"

人工智能

推理加速

模型优化

2025-07-11

OmniDraft：高通AI研究院让小模型秒变万能助手，一个68M模型竟能给多个大模型当"草稿员"

这项由高通AI研究院完成的研究提出了OmniDraft框架，通过跨词汇表翻译、在线蒸馏学习和自适应草稿调整三大创新技术，让一个68M参数的小模型能够为多个不同的大型AI模型提供通用加速服务，在数学推理、编程和文本生成等任务中实现了1.5-2倍的速度提升。

潜在扩散模型

物理模拟

计算效率优化

2025-07-11

物理模拟也能"压缩"？Flatiron研究院探索AI模型如何在虚拟世界中偷懒却不失精度

Flatiron研究院团队探索了在压缩的"潜在空间"中进行物理模拟的新方法，发现即使压缩1000倍，AI模型仍能准确预测复杂物理现象如流体流动和湍流。研究对比了扩散模型和神经求解器两种方法，发现扩散模型不仅更准确，还能处理系统的不确定性。这项技术将物理模拟速度提升数十倍，为天气预报、工程设计等领域带来革命性改进。

人工智能

创意写作

奖励模型

2025-07-11

斯坦福大学突破：AI能否像人类一样判断创意写作的好坏？

斯坦福大学研究团队创建了全球首个创意写作评估基准LitBench，通过分析Reddit写作社区的4万多对故事比较数据，训练AI模型判断创意写作质量。研究发现专门训练的小型奖励模型（78%准确率）能超越大型语言模型评委（73%），但添加推理链反而降低了表现，揭示了创意评判需要直觉性判断的特点。

强化学习

自主学习

零数据训练

2025-07-11

清华大学团队突破AI学习限制：让机器在零数据环境下自己跟自己下棋变聪明

清华大学团队提出"绝对零度"AI训练新方法，让AI系统完全不依赖人类数据，仅通过自己出题解题的方式实现自主学习。该方法在编程和数学推理任务上超越了使用大量人工数据训练的传统模型，展现了AI超出预期的自主学习潜力，为未来AI发展开辟了新方向。

人工智能

多模态评估

链式思维推理

2025-07-11

复旦和腾讯联手开发出能"深度思考"的AI评委——彻底改变视觉内容评分游戏规则

复旦和腾讯联合开发的UnifiedReward-Think是全球首个具备链式思维推理能力的统一多模态奖励模型。该系统能像专业评委一样进行多维度深度分析，在图像和视频评估任务中全面超越现有方法，准确率提升5-25%。更重要的是，即使不展示推理过程，其内化的推理能力也能显著提升直接判断的准确性，为AI评估领域带来革命性突破。

人工智能

多步推理

数据增强

2025-07-11

TUM团队突破性发现：AI模型竟能用"错误"数据学会完美推理！

慕尼黑工业大学研究团队首次将"grokking"现象成功应用于真实世界的复杂推理任务，通过巧妙的数据增强策略，让仅有1.24亿参数的小型AI模型在多步推理任务上达到95-100%准确率，超越了GPT-4o等大型模型。更令人惊讶的是，即使训练数据中包含错误信息，也能增强而非削弱模型的推理能力。

AI语音助手终于能像《她》里一样自然聊天了！加州圣地亚哥大学等团队推出Voila模型

语音人工智能

端到端语音模型

实时语音交互

2025-07-11

AI语音助手终于能像《她》里一样自然聊天了！加州圣地亚哥大学等团队推出Voila模型

加州大学圣地亚哥分校等机构联合开发的Voila语音AI系统实现了真正的实时双向语音交互，响应速度仅195毫秒，支持情感表达和主动对话。该系统采用端到端架构，拥有百万预制声音库，仅需10秒音频即可定制新声音。Voila在新建立的综合评测基准上表现优异，并已完全开源。

云计算

虚拟化技术

市场重新定位

2025-07-11

Citrix重返主流虚拟化市场，但承认产品尚未就绪

Citrix宣布通过XenServer产品重返主流虚拟化市场，尽管该公司承认产品尚未完全就绪。云软件集团表示XenServer正扩大支持范围以涵盖各类工作负载。Citrix早在2010年代初就基本放弃了XenServer作为主流虚拟化产品的定位。产品管理高级总监认为当前虚拟化市场正经历前所未有的变化，特别是主要厂商的激进许可变更给IT预算带来压力，为Citrix提供了重返市场的机会。

人工智能

容器化技术

云端部署

2025-07-11

Docker推出新功能支持AI智能体开发

Docker公司发布重大新功能，旨在简化智能体AI应用的构建、运行和部署。公司扩展了Docker Compose工具以支持AI智能体和模型的大规模部署，并推出Docker Offload服务，允许开发者将AI工作负载转移到云端。新功能还支持模型上下文协议网关的安全连接，并与谷歌云、微软Azure等合作伙伴集成。

人工智能

透明度

新规法案

2025-07-11

欧盟AI新规让科技巨头深恶痛绝的条款

欧盟发布AI法案实施细则，要求谷歌、Meta、OpenAI等公司承诺不使用盗版材料训练AI，详细披露训练数据来源和模型设计理念。新规还要求公司尊重付费墙和网站爬虫限制，公开训练和推理的总能耗，并在5-10天内向欧盟AI办公室报告安全事件。违规企业可能面临年销售额7%或3%的罚款。

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: