最新文章第4页

2025-12-22

ChatGPT新增个性化设置功能，用户可自定义聊天体验

OpenAI为ChatGPT推出个性化设置功能，用户可自主调节AI的温暖度和热情程度，选择"更多"或"更少"个性特征。新功能还支持调整表情符号、标题和列表使用频率，并可选择古怪、专业、友好、愤世嫉俗等不同性格特点。同时优化了邮件编写体验，支持直接在对话中更新和格式化文本，用户可高亮特定文字段落并要求ChatGPT进行针对性修改。

Kuxiu S3固态电池充电宝替代多款充电器的全能解决方案

这款MagSafe固态电池移动电源采用先进的固态电池技术，具备Qi2.2 25W无线充电和35W有线充电功能。支持iPhone快速充电，内置高质量编织线缆可为iPad等设备充电，还配备智能显示屏显示电量百分比。多功能设计让用户可同时为多设备充电，售价约70美元，适合移动办公用户使用。

Waymo自动驾驶出租车遭遇交通灯故障停摆事件分析

由于电力中断导致交通信号灯失效，谷歌旗下Waymo公司的无人驾驶出租车在旧金山全面停运。停电影响超过13万户家庭，主要路口交通灯熄灭，自动驾驶车辆面对失效信号灯时无法正常运行，只能紧急停车。Waymo已暂停湾区叫车服务，等待交通灯恢复正常。此次停电由太平洋燃气电力公司变电站火灾引起，截至周日上午，约四分之三受影响居民已恢复供电。

2025-12-22

智启未来，共筑开发者生态 AMD携手DataWhale、魔搭社区，共建ROCm开发者生态

2025年12月21日，在魔搭社区（杭州）开发者中心，AMD携手DataWhale和魔搭社区共同举办了“智启未来，共筑开发者生态”的发布会，来自全国的AI开发者与爱好者齐聚杭州，共同见证了三方携手共建的“ROCm开发者专区”正式发布和“ROCm开发者学习中心“挂牌成立。

训练AI画画，一半数据就够了？港大团队发明"炼金术师"让AI挑食变聪明

香港大学团队开发的"炼金术师"数据筛选系统，能从海量图片中精选一半高价值数据，训练出比使用全量数据更优秀的AI图像生成模型。该方法通过观察模型学习反应判断数据价值，发现适度复杂的图片比简单图片更有训练效果，实现了5倍训练加速和显著性能提升。

AI语言模型训练的"激励难题"：哥伦比亚大学揭示强化学习的探索与利用悖论

哥伦比亚大学等机构研究团队发现，在AI模型的强化学习训练中存在一个悖论现象：阻碍探索和阻碍利用竟然都能提升性能。研究揭示了裁剪技术实际是熵调节器而非学习信号，策略熵与性能无直接因果关系，并提出奖励错配理论解释随机奖励的积极效果，为AI训练方法设计提供了新的理论基础。

百度飞桨团队突破：0.9B超轻量级模型如何让文档识别变得又快又准

百度飞桨团队推出PaddleOCR-VL，一个仅有9亿参数的超轻量级视觉-语言模型，在文档解析任务中达到业界最先进水平。该模型采用混合架构，结合专门的布局分析模块和高效的视觉-语言识别模块，能够准确识别文字、表格、公式和图表，支持109种语言，处理速度比同类模型快50%以上，为资源受限环境下的文档处理提供了实用解决方案。

机器人如何像小孩一样学会抓东西：伯克利大学的突破性发现

由加州大学伯克利分校研究团队开发的LEGO框架通过让机器人在由四个基本几何形状组成的随机玩具上训练，实现了对真实物体的零样本抓取。核心创新是检测池化机制，它强制视觉系统专注于物体本身而非背景。仅用1500个演示，该方法在YCB数据集上达到67%的成功率，超越了参数量大百倍的预训练模型，证明了正确的架构设计比数据规模更重要。

秒级生成精美3D场景：来自腾讯和厦门大学的突破性技术

FlashWorld是由厦门大学、腾讯和复旦大学联合开发的突破性3D场景生成模型。它通过创新的双模式预训练和跨模式蒸馏策略，在保持高图像质量的同时确保3D一致性，生成速度比现有方法快10-100倍，仅需9秒即可生成一个完整的高质量3D场景。该研究在图像到3D、文本到3D等多个任务上都展现了优异性能。

自动驾驶的"眼睛"学会了看懂世界：港科大和商汤的AI如何同时生成视频和重建3D场景

本研究由香港科技大学和商汤科技联合完成，提出CVD-STORM框架，通过创新的STORM-VAE模块实现了自动驾驶场景的多视角长视频生成与4D场景重建的统一。该方法在FID和FVD指标上分别相比最优基线提升34%和61%，并首次实现了从生成视频中直接提取准确的绝对深度信息，为自动驾驶世界模型的发展开辟了新方向。

北京大学团队突破：让AI学会"看病"，一个模型搞定所有图片问题

北京大学研究团队提出了一种名为MaskDCPT的新型图像修复预训练方法，通过让神经网络同时学习识别图像问题类型和修复图像，实现了显著的性能提升。研究团队还发布了包含250万张图像的UIR-2.5M数据集，涵盖19种图像问题。实验表明，该方法在五维全能修复任务上相比基础模型平均提升3.77分贝，在真实世界场景中也表现出色，具有强大的泛化能力。

千问C端事业群成立后首推平价AI眼镜：低至1999元，搭载千问AI助手

阿里千问C端事业群成立后，在 AI 硬件领域动作加速。

腾讯AI实验室新突破：让AI像专家一样精准理解和编辑复杂图片

腾讯AI实验室联合港校提出RePlan框架，解决复杂图像编辑中的指令理解和精确定位难题。该方法采用"计划-执行"架构，让视觉语言模型先推理制定区域级编辑计划，再通过创新的注意力机制精确执行。仅用1000个样本训练就超越了大规模数据训练的模型，在新建的IV-Edit基准上表现出色。

AI机器人终于学会了"立体视觉"：香港科技大学团队让计算机像人类一样理解3D世界

这项由香港科技大学等机构联合完成的研究首次让AI获得了原生的3D空间理解能力。N3D-VLM系统能够像人类一样准确感知物体的立体位置关系，先精确定位物体的3D边界框，再进行空间推理。研究团队还开发了巧妙的数据生成方法，将2D标注转换为278万个3D样本，并构建了全新的N3D-Bench测试基准。实验显示该系统在空间推理任务上准确率超过90%，远超现有方法，为机器人、自动驾驶等领域提供了重要技术突破。

多模态大语言模型

自适应工具使用

视觉推理优化

2025-12-22

香港中文大学推出AdaTooler-V：AI如何学会聪明地使用工具而非盲目操作

香港中文大学研究团队开发的AdaTooler-V模型解决了现有AI"盲目使用工具"的问题。该模型通过AT-GRPO算法学会智能判断何时需要使用视觉工具，在多个标准测试中表现优异，V*测试准确率达89.8%，超越商业模型GPT-4o。研究采用两阶段训练策略和30万样本数据集，验证了"适应性工具使用"的有效性，为构建更智能高效的AI系统提供了新思路。

Google与约翰霍普金斯大学联手打造AI"审计官"：让机器人也能发现自己的盲点

多模态大语言模型

模型审计技术

AI性能优化

2025-12-22

Google与约翰霍普金斯大学联手打造AI"审计官"：让机器人也能发现自己的盲点

Google与约翰霍普金斯大学联合开发的AuditDM系统，能够自动发现AI模型的弱点并改进其性能。该系统训练专门的"审计师"AI来生成挑战性问题和图片，成功发现了20多种AI失败模式，包括大模型在某些任务上反而不如小模型的现象。通过针对性数据训练，实现了显著的性能提升，为AI评估和改进开辟了新路径。

人工智能

视频生成

多模态控制

2025-12-22

香港科大团队用AI创造互动视频世界：手绘轨迹就能让任何角色按你想法演戏

香港科技大学团队开发的WorldCanvas AI框架实现了视频创作的重大突破。用户只需手绘运动轨迹、输入文字描述和参考图片，即可生成精确可控的视频内容。该系统通过空间感知技术解决多角色场景的精确控制问题，在轨迹跟踪、语义理解等方面显著超越现有模型，为视频制作、游戏开发、教育等领域带来革命性应用前景。