近日,全球顶级音频技术会议 ICASSP 2022 公布了论文入选名单。网易云信音频实验室论文——《一种针对实时通信的基于神经网络的啸叫检测方法》(A Neural Network-based Howling Detection Method for Real-time Communication Applications)被大会接收,并受邀于今年5月在会议上向学术和工业界做研究报告。
这是网易云信音频实验室创新成果连续两年受到世界顶级学术会议认可。
ICASSP(International Conference on Acoustics, Speech and Signal Processing)即国际声学、语音与信号处理会议,是IEEE信号处理协会主办的全球最大、最全面的音频领域顶级会议,具有权威、广泛的学界及工业界影响力,在国际上享有盛誉。
随着AI的迅速发展,深度神经网络在声音场景分类(ASC, Acoustic Scene Classification)和声音事件检测(AED, Acoustic Event Detection)任务中的应用已越来越多,并且明显优于传统的信号处理方法。网易云信音频实验室本次研究则是将AI技术应用于啸叫检测中,该论文为AI啸叫检测领域在全球范围内首个公开发表的研究成果。
当扬声器和话筒之间的声学耦合产生正反馈时,啸叫便会产生。传统的公共广播系统和助听器设备利用传统的啸叫功能检测和抑制啸叫。然而,实时通信(RTC)中的传统啸叫功能会受到非线性和不确定性的影响,如各种扬声器/麦克风响应、多种非线性音频处理、不稳定的网络传输抖动、声学路径变化和环境影响等。在啸叫检测中,使用特定时间-频率特征的信号处理方法对RTC场景是无效的。
云信音频实验室提出了一种基于卷积递归神经网络(CRNN)的方法,用于RTC应用中的啸叫检测,实现了出色的准确性和低误报率。该篇文章使用不同的移动设备收集和标记啸叫数据集用于模型训练,并选择对数梅尔谱作为输入特征,实现了 89.46% 的检测率和 0.40% 的误报率。 此外,所提出方法的模型大小仅为 121kB,并且已在实时运行的移动设备中实现。
作为行业内首批音视频 AI 实验室之一,网易云信音频实验室不断探索“AI+音频”前沿技术方向,连续取得业界权威认可。2021年,实验室在 AI 音频降噪和 AI 音乐检测的研究成果被第 50 届国际噪声控制工程会议(INTER-NOISE 2021)收录,自建的国内行业中首个 AI 音乐检测模型受到了高度关注。本次AI啸叫检测成果被 ICASSP 2022接收,再次证明了网易云信在音频技术领域的顶尖研究实力。
未来,网易云信音频实验室将持续引领新技术发展方向,并将先进的算法模型应用于产品和场景中,为全球用户打造极致听觉体验。
好文章,需要你的鼓励
谷歌CEO皮查伊在AI竞赛低谷期坚持"信号降噪"原则,顶住压力加倍投入,最终带领谷歌凭借Gemini系列重夺领先。他坚信AI将超越火与电的革命性影响,通过递归自我改进极大降低创意实现门槛,这场"创造力民主化"浪潮或将解锁80亿人的认知潜能。
上海交大研究团队开发的VideoREPA是一种突破性的视频生成框架,通过令牌关系蒸馏技术将视频理解模型中的物理知识转移到文本到视频(T2V)扩散模型中。与传统方法不同,VideoREPA关注空间和时间关系的对齐,使生成的视频更符合物理常识。实验表明,这种方法在VideoPhy基准测试中将物理常识分数提高了24.1%,明显优于现有技术。该研究为创建更真实的AI生成视频提供了新思路,展示了理解能力与生成质量间的密切关联。
李飞飞的World Labs以"空间智能"重新定义AI,专注3D物理世界理解,4个月估值飙至10亿美元,获科技巨头集体押注。她揭示语言无法编码物理世界,而DNA双螺旋等突破性发现都源于三维空间的深度认知。
浙江大学和莫纳什大学研究团队开发了PM-Loss,一种用于改进前馈式3D高斯分布渲染的新型正则化损失函数。研究针对深度图在物体边界处的不连续性问题,通过预训练Transformer模型预测的点图提供几何先验知识,实现了更平滑、准确的3D场景重建。实验表明,PM-Loss在多个数据集上显著提升了渲染质量,PSNR提高至少2dB,特别改善了物体边界处的细节表现。该方法易于集成到现有模型中,无需修改架构,为3D视觉和图形学领域提供了新的研究思路。