最新文章第2页

2026-05-21

相机传感器尺寸真的重要吗？

相机传感器尺寸是相机的核心规格之一，更大的传感器通常能捕获更多光线，在弱光环境下表现更好。但实际差异取决于多种因素：HDR模式、像素合并技术、镜头光圈和传感器技术本身都能让小传感器接近大传感器的表现。对于社交媒体分享，传感器尺寸差异不大；对摄影爱好者而言，相机本身和摄影技巧比传感器尺寸更重要。

Gemini Omni正式发布：多模态输入生成高质量视频

谷歌推出全新模型Gemini Omni，支持图像、音频、视频和文本的多模态输入，并可生成高质量视频。用户可通过自然语言对话编辑视频，保持角色一致性与场景连贯性。Omni结合物理直觉与Gemini的知识库，实现更真实的视觉效果。首款产品Gemini Omni Flash已向全球Plus、Pro和Ultra订阅用户开放，并将逐步向开发者和企业客户提供API接入。

新加坡国立大学发布首个视频"潜台词"理解基准测试：AI究竟能不能读懂视频背后的弦外之音？

新加坡国立大学构建了首个视频隐喻理解基准ViMU，含588段视频与2352道题，测试16个主流AI模型均未超过50%，揭示AI在视频潜台词理解上的系统性短板。

浙江大学联合多所顶校：让AI真正"看懂"360度全景图，机器人导航和视觉搜索迎来新突破

浙江大学等机构联合提出PanoWorld，通过球面空间交叉注意力和57万张全景图训练数据，让AI能直接理解360度全景图的空间结构，在导航和视觉搜索任务中大幅超越现有方法。

香港科技大学联合多家机构打造AI记忆力测试场：你的智能助手真的记得住你说过什么吗？

MEMLENS是首个同时评测视觉语言模型与记忆智能体在多模态多会话长对话中的记忆能力的基准，包含789道需图文结合才能作答的问题，揭示两类系统存在互补缺陷。

在2026年Google I/O大会上，Google宣布对搜索引擎进行重大革新。核心升级包括：由Gemini 3.5 Flash驱动的全新AI搜索框，支持自然语言、图片、视频等多模态输入；可在后台持续监控网络信息的"信息智能体"；支持AI代拨电话的本地服务预订功能；跨平台联动的"通用购物车"；以及集成Antigravity的代码生成工具。此外，用户可选择接入Gmail、日历等应用，实现个性化搜索体验。

机械臂"闭眼抓球"的难题终于有解了——凯斯西储大学的研究团队让机器人在运动中也能精准出手

机器人操作

视觉-语言-动作模型

训练-free推理优化

2026-05-21

机械臂"闭眼抓球"的难题终于有解了——凯斯西储大学的研究团队让机器人在运动中也能精准出手

这项研究针对视觉-语言-动作模型在动态场景下的"动态盲区"问题，提出无需重训练的推理时修正方法PPC，通过节奏压缩和路径偏移两个正交通道补偿目标运动，成功率最高提升28.8%。

人工智能

搜索技术

融资动态

2026-05-21

AI搜索初创公司迎来爆发式增长

谷歌宣布用AI驱动体验重塑传统搜索，但并非唯一布局者。Andreessen支持的Exa Labs以25亿美元估值融资2.5亿美元。Tavily、TinyFish和Parallel Web Systems等初创企业纷纷入局AI搜索赛道。Parallel由前Twitter CEO领导，刚完成红杉领投的1亿美元融资，估值20亿美元。亚马逊、领英和Reddit等平台也在用AI改造搜索功能。ChatGPT目前主导AI搜索界面层，但OpenAI和谷歌各有掣肘，为小型实验室留出市场空间。

人工智能

音乐生成

数据授权

2026-05-21

Stability AI发布可生成六分钟音乐的新音频模型

Stability AI推出Stable Audio 3.0系列音频模型，包括四个版本。最大版本可生成超过六分钟的专业级音乐，保持音乐结构和旋律完整性。公司开放三个小型模型的权重供免费使用，大型模型仅通过API提供。新模型基于完全授权的数据训练，公司已与华纳音乐和环球音乐达成合作协议，并计划为专业音乐人开发新产品套件。

人工智能

通用人工智能

科学研究应用

2026-05-21

谷歌DeepMind CEO称我们或已站在"奇点的山麓"

在谷歌I/O大会主题演讲的收尾环节，DeepMind CEO Demis Hassabis发表了一番充满哲学意味的演讲。他表示，谷歌的前沿研究与产品将助力释放AGI的巨大潜力，人类或许正站在"奇点山脚"。他还介绍了面向科学研究的Gemini for Science工具集，并称其目标是"重塑药物发现，最终攻克所有疾病"。此前他曾表示，AGI在2030年前实现的概率为50%。

人工智能

数据中心基础设施

电网供应链优化

2026-05-21

美国将AI数据中心纳入基础设施快速审批通道

美国联邦政府正将AI基础设施纳入FAST-41监管框架，该框架原用于简化重大基础设施项目的环境审查。此次扩展新增了AI数据中心及阿拉斯加北极铜矿项目，涵盖变压器、输电系统等关键设备的供应链。当前，变压器交货周期长达18至24个月，电缆价格自2019年以来上涨152%，近半数原计划于2026年上线的数据中心面临延期或取消。业界呼吁重新审视超大规模园区的建设架构，以匹配电网扩张的实际节奏。

人工智能

云计算

基础设施投资

2026-05-21

谷歌50亿美元TPU合作是否预示新云计算时代到来

谷歌与黑石集团正联合推出以张量处理器（TPU）为核心的AI基础设施合资企业，黑石初期承诺投入50亿美元股权资金，计划于2027年部署500兆瓦算力。该合资企业将提供数据中心容量、网络、运营及谷歌云TPU算力服务。分析人士指出，此举与新兴云计算市场高度相似，标志着专用AI算力正演变为独立基础设施资产类别，整体规模或达250亿美元。

NanoCo融资1200万美元加速NanoClaw发展，为企业员工打造安全智能体助手

人工智能

智能体技术

企业安全方案

2026-05-21

NanoCo融资1200万美元加速NanoClaw发展，为企业员工打造安全智能体助手

NanoCo宣布完成1200万美元种子轮融资，由Valley Capital Partners领投，Vercel、Monday.com等多家机构参与。其产品NanoClaw是一款本地部署的安全轻量级AI智能体，可学习员工工作习惯并自动化处理日常任务，效率提升可达2至3倍。该产品通过Docker容器隔离会话、凭证网关注入等机制确保企业数据安全，自今年2月上线以来已获近2.9万GitHub星标，并被亚马逊、谷歌、Meta等科技巨头高管采用。

人工智能

智能体应用

招聘效率优化

2026-05-21

Juicebox推出自主招聘智能体，助力企业主动寻找候选人

Juicebox正式推出Juicebox Agents招聘智能体套件，可跨多个职位同步主动识别并联系候选人，自动推荐人选、起草外联消息。该产品整合GitHub、Stack Overflow等逾30个公开数据源，构建更丰富的候选人画像。早期用户显示招聘效率提升5倍、寻源时间缩短50%。平台每月进行独立第三方偏见审计，每个"智能体槽位"定价200美元/月。

人工智能

数据治理

企业级AI应用

2026-05-21

Informatica扩展智能体AI战略，推出无头数据服务与统一智能体治理

被Salesforce收购后，Informatica发布重大更新，推出"无头"版旗舰产品智能数据管理云（IDMC），通过MCP端点和可复用服务供AI智能体直接调用，支持Claude、Slack、Cursor等主流AI框架。同时推出业界首个统一"智能体与上下文目录"，实现数据资产与AI智能体的统一治理。此外，公司还发布数据质量智能体、元数据增强智能体等新工具，并深化与谷歌、微软、Snowflake、AWS、Databricks等合作伙伴的集成。

人工智能

应急管理

智慧城市

2026-05-21

Presight与阿布扎比民防局共建AI驱动公共安全平台

阿布扎比AI公司Presight与阿布扎比民防局签署合作协议，共同推进人工智能在紧急响应、风险预测及公众保护领域的应用。合作重点涵盖预测调度系统、应急车辆智能路线优化、早期火灾探测及实时风险映射。此前，Presight已推出AI危机响应平台LifeSaver，整合调度管理、紧急通信与医院协调能力。本次合作是阿联酋智慧城市战略的重要组成部分，旨在将公共安全管理从事后响应转向主动预防。

戴尔

DTW

AI

2026-05-21

当智能体撞上“Token通胀”，企业AI还能怎么落地？戴尔给出了一个新答案

Dell AI Factory with NVIDIA进一步扩展，为企业打造本地化、安全且成本可预测的现代化智能基础底座，实现从桌面决策终端到数据中心规模化部署的无缝延展。

机器人控制

视觉历史编码

意图混淆评测

2026-05-21

华中科技大学联合多所高校：当机器人"记性不好"，它怎么知道下一步该干嘛？

研究团队为VLA机器人开发了短视界意图感知框架IntentVLA，通过编码近期视觉历史解决"当前画面相似但动作不同"的混淆问题，同时推出12任务评测基准AliasBench，在多个仿真平台上验证了成功率和动作一致性的双重提升。

人工智能

扩散模型

多任务优化

2026-05-21

复旦大学与阿里巴巴联手：让AI绘图模型同时"精通百艺"的新方法

复旦大学与阿里巴巴提出DiffusionOPD，通过先训专家再统一蒸馏的两阶段方法，让扩散模型同时掌握构图、文字渲染和美观度多项技能，训练更快、效果更优。

人工智能

数字水印

内容溯源技术

2026-05-21

OpenAI推出图像水印新技术，AI生成内容将更易被识别

OpenAI宣布在其图像生态系统中引入内容溯源信号，结合C2PA标准合规认证与Google DeepMind的SynthID技术，为AI生成图像嵌入不可见的数字水印。该水印基于像素级隐写技术，即使经过截图、裁剪、压缩或色彩调整后仍可保留。OpenAI同步上线公共验证工具，用户可借此检测图像是否由AI生成，覆盖ChatGPT、Codex及OpenAI API的所有图像输出。

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: