近日,第31届中国国际信息通信展览在北京举行,腾讯亮相北斗卫星导航系统高峰论坛,并首次对外展示完整的定位技术能力和产品矩阵。腾讯地图定位产品总监郑为志表示,腾讯基于北斗卫星导航系统以及北斗地基增强系统等基础设施,并依托海量数据、丰富场景,形成了包括网络RTK服务、室外卫星定位、室内网络定位,蓝牙以及UWB定位、多源融合定位等较腾讯之前更完整的定位能力矩阵。
腾讯地图定位产品总监郑为志展示腾讯定位产品矩阵
截至目前,腾讯定位能力覆盖超过11亿用户终端[1]。郑为志表示,腾讯支撑的定位业务与底层数据互相驱动,形成良性闭环。
一、网络RTK服务:更精细的优化实现高精度定位
随着车道级导航、辅助驾驶、智慧农业等产品的普及,行业对定位能力的需求越来越趋向高精化。对此,腾讯网络RTK产品于2022年3月正式上线。针对站点环境复杂、大气误差复杂多变、区域误差特性差异较大等问题,腾讯开发出多层级的站点质量监控及异常站点处理系统,多尺度的站点协同电离层估计算法和多层次校验的高鲁棒性电离层计算算法,以及基于大气误差解算结果及区域高程信息的自适应虚拟站分布算法,实现了网络RTK服务的数据层、误差解算层和虚拟站生成层三层架构每个层级的优化,从而带来更稳定、准确、可靠的RTK服务[2]。
上线一年多来,腾讯网络RTK服务已覆盖超过400万的硬件终端[3]。腾讯RTK服务助力OPPO realme手机定位精度由3-5米提升到了1米左右[4],实现了车道级导航。在智能汽车场景下,腾讯为柳州汽车提供的网络RTK解算及服务,可支持座舱的车道级导航以及辅助驾驶功能。在智慧物流场景,某物流快递员手持设备、及旗下智能终端设备,都搭载了腾讯RTK高精定位能力,支持快递员配送的精准判达、无人车配送等功能。
二、3DMA定位技术:解决城市峡谷场景卫星多径折射问题
城市环境中的卫星定位一直困扰着行业和用户。由于建筑物遮挡等因素,造成GNSS卫星信号多路径反射等情况,在现实世界中最终会导致卫星定位误差大。针对卫星多路径干扰导致定位不准的难题,腾讯研发了3DMA地图辅助定位技术,3DMA的原理就是以解算的粗略位置为中心,选取周边区域,划分成格网作为候选点,通过3D建筑地图和星历信息得到每个网格每颗卫星观测量的预测信息,再和接收到的卫星实际观测量信息进行匹配,得到得分网格,通过聚类算法确定最可能的位置结果。
腾讯地图定位产品总监郑为志展示3DMA定位技术
3DMA算法不仅可以在软件层面进行位置的直接修正,还可以通过这种方式得到真实的卫星LOS和NLOS信息,再通过ray-tracing算法还原部分单次折射的伪距观测量,给芯片解算提供更多信息进行完好性校验,使得芯片解算结果更精准。目前,腾讯3DMA定位技术已在OPPO FIND N2系列手机上首发上线,为用户提供精准的城市导航服务。
三、多源融合定位:融合定位技术,让定位更可靠
由于电离层干扰、隧道遮挡等因素,卫星解决不了所有场景的定位问题,此外,惯导、视觉、高精地图等都各有不足。因此,多源融合技术就尤为关键。
相比于行业内传统的滤波算法,腾讯使用了图优化的融合算法。该算法融合了历史多源多时刻传感器的观测信息并通过全局优化生成当前更优解[5],定位的精度和可靠性更好,相比于传统滤波算法,定位精度提升13%[6]。基于优化的融合定位算法在江淮汽车自动驾驶项目上已落地交付。
目前,腾讯的多源融合定位产品已拿到多个车厂的量产交付项目,支持车道级导航以及辅助驾驶功能,除了与江淮汽车的合作,蔚来、江铃等多个车厂今年也都会陆续完成量产交付。未来,搭载腾讯的高精地图以及腾讯的多源融合定位产品上路的车辆将会与日俱增。
总结
郑为志表示,基于3DMA定位技术、网络RTK服务、多源融合等定位关键技术能力模块对原始信号、差分信号、卫星定位等的修正增强,腾讯较之前具备了更完整的定位能力和解决方案,并通过一站式采购等方式,为合作伙伴降低成本,可为智能驾驶、大众定位、智慧城市、智慧农业等各个行业提供覆盖各种终端的全栈自研定位产品及解决方案。
备注:[1]11亿用户终端:数据来源腾讯定位技术中心,统计时间截止于2023年6月,终端包含手机、车机等各种硬件应用终端;[2]更稳定、准确、可靠的RTK服务:相较于未使用上文描述的RTK服务复杂问题解决方案的网络RTK服务;[3]400万的硬件终端:数据来源腾讯定位技术中心,统计时间截止于2023年6月,终端包含手机、车机、PDA等各种硬件应用终端;[4]由3-5米提升到了1米左右:数据来源腾讯定位技术中心;[5]更优解:结果来源于腾讯定位技术中心,经腾讯对比实验测试,证实融合算法全局观测得到的结果较没有采用该算法的更优;[6]相比于传统滤波算法,定位精度提升13%:数据来源腾讯定位技术中心,通过实际项目评测得到。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。