近日,计算机视觉三大顶级会议之一CVPR正式公布了 2023年的接收结果,如视首席科学家潘慈辉带领团队提交的最新研究成果《TexIR: Multi-view Inverse Rendering for Large-scale Real-world Indoor Scenes(大规模室内真实场景的多视角逆渲染)》成功入围。该项研究,在真实空间的更深层次数字化层面取得突破进展。此次全新逆渲染技术研究成果的入围,不仅意味着如视在三维实景模型重建和混合现实领域的研究已获得了国际学术界的高度认可,更标志着如视的算法能力已在理论研究、技术应用等层面步入国际领先水平。

对物理世界的三维重建,作为计算机图形学和计算机视觉领域的热点课题之一,已随着技术的不断成熟,被越来越广泛地应用于营销、空间数字化管理、泛娱乐、虚拟现实等领域。目前市面主流的算法,通过空间几何模型与纹理贴图的方式,在场景的外观还原度上与真实世界看起来几近相同。
目前的三维重建方式,仅能对场景的外观特征加以还原,但无法对场景内诸如光照、反射率、粗糙度、等更深层次的属性加以数字化,导致无法对这些深层信息进行查询和编辑,更无法将其更有价值地转化为渲染引擎可使用的PBR渲染资产,生成极具真实感的渲染效果。

逆渲染原理
而如视团队本次开创性提出面向真实室内场景的多视角逆渲染框架,可基于精准的空间数据,反向推测获取对诸如光照、反射率、粗糙度等场景内在属性,在三维重建的基础上恢复出贴近真实场景的光照和材质表现,在重建效果、成本效率、应用范围等维度实现全面提升。

逆渲染技术实操与应用
如视首席科学家潘慈辉对此表示:“我们创造的全新深度逆渲染框架,真正意义上实现了对真实世界更深层的数字化,解决了以往逆渲染方法难以在真实场景下恢复物理合理的材质和光照以及多视角一致性的问题,为三维重建和混合现实的落地应用带来了更大想象空间。”
1.更贴近真实的场景还原效果
与过往采用合成数据训练的方法不同,如视提出的全新深度逆渲染框架,首次引入了“层级式场景先验”,通过多阶段的材质优化,结合如视数字空间中精准数据,对空间内光照、反射率、粗糙度物理属性进行分层级的精准预测,并将预测结果无缝转化为物理合理、全局一致的多类型材质贴图等渲染资产,并可适配目前主流渲染引擎。
2.更低的计算成本
近年来,为了更好地解决逆渲染问题, 同时减少对训练数据的依赖, 可微渲染的方法被提出,即通过“微分求导”的方式,使正向渲染可微分,进而将梯度反向传播至渲染参数,最终优化得到基于物理的待求解参数。由于复杂室内场景存在大量的复杂光学效应,如遮挡、阴影,在可微渲染中建模全局光照会带来高昂的计算成本。如视本次提出的光照表示模型可以高效准确地表示室内场景内的全局光照,极大地提升了逆渲染方法的效率。据实验分析统计,基于如视的逆渲染框架,相较传统方式,计算速度大幅提升近24倍,数据内存容量也实现了成倍缩减。
3.更大的重建规模
基于如视的精准数字空间模型,与高效准确的混合光照表示,全新的逆渲染框架引入多种场景先验,解决了以往NeRF-like的神经逆渲染方法无法建模大尺度室内场景的问题。
未来,全新的逆渲染技术将有望开启更为广阔的MR应用,如室内材质编辑、新视图合成、光照调整、物体空间融入等。通过对真实世界实现更深层数字化,如视将进一步加速实现数字空间的建设,发挥算法及技术产品优势,推进研究成果产业化,为商业零售、工业设施、文博会展、公共事务、家居家装、房产交易等行业带来数字化应用升级的全新发展机遇。
关于CVPR:
CVPR(IEEE Conference on Computer Vision and Pattern Recognition,即IEEE国际计算机视觉与模式识别会议)作为计算机视觉领域最顶级的会议,每年都会吸引大量研究机构和高校参会。近年来,CVPR 的投稿数量也在持续增加。据官方信息统计,本届CVPR有效投稿9155篇,比去年增加了 12%,创下新纪录;收录2360 篇,接收率为 25.78%。
好文章,需要你的鼓励
Core Memory播客主持人Ashley Vance近日与OpenAI首席研究官Mark Chen进行了一场长达一个半小时的对话。这是Chen近年来最公开、最深入的一次访谈,话题覆盖人才争夺战、研究战略、AGI时间表,以及他个人的管理哲学。
波士顿大学团队发现当今多模态AI存在严重"偏科"问题:面对冲突的文字、视觉、听觉信息时,AI过分依赖文字而忽视真实感官内容。研究团队构建MMA-Bench测试平台,通过创造视听冲突场景暴露了主流AI模型的脆弱性,并提出模态对齐调优方法,将模型准确率从25%提升至80%,为构建更可靠的多模态AI系统提供重要突破。
脑机接口技术正快速发展,特别是非侵入性方法取得重大突破。通过EEG、fNIRS、MEG等传感技术结合人工智能,实现思维解码、图像重构等功能。聚焦超声波技术能精确调节大脑深层结构,为神经疾病治疗带来新希望。消费级可穿戴设备已能改善睡眠、缓解抑郁。这些技术将重塑人机交互方式,从医疗应用扩展至认知增强领域。
UC伯克利研究团队发现了一种名为"双重话语"的AI攻击方法,能够通过简单的词汇替换绕过当前所有主流聊天机器人的安全防护。攻击者只需用无害词汇替换危险词汇,就能让AI在不知不觉中提供危险信息。研究揭示了现有AI安全机制的根本缺陷,迫切需要开发新的防护策略来应对这一威胁。