8 月 18 日,2022 “视界无垠 音聚而生”网易音视频技术大会在线上举办。会上,来自网易智企、网易云音乐、网易伏義、网易传媒、英特尔等众多聚焦于音视频领域多年的产品和技术专家,共同为观众分享了音视频技术的前沿创新与应用实践经验。
技术发展一日千里,不仅显著改变了人们的社会生活,也深刻变革了社会生产方式。随着近几年短视频及直播等业务的爆发,人类正式迈入了音视频的时代,加之新冠肺炎疫情的催化,许多原本可在线下完成的活动被大量迁移到线上,音视频技术生发出了在各个行业应用的无限可能,基于音视频的娱乐社交、远程办公协同、在线课堂教学、线上招聘等新场景纷纷涌现。
如何探寻音视频在更多新兴领域的新机会、新实践,如何令技术更好地为企业所用并获取技术更迭带来的价值增量,成为许多从业者共同关注的问题。
作为 2022 网易音视频技术大会的总出品人,网易智企技术VP 陈功对本次大会的内容和亮点进行了介绍。陈功指出,多年以来,网易旗下多个事业部在音视频领域进行了大量的研发投入,来自不同事业部的音视频专家们围绕音视频前沿技术进行了不断的探索实践、共建共享,为网易各个业务的产品创新推波助力,并得到了商业化的闭环验证,而音视频技术大会的初衷,便是将网易已经验证的、成熟的场景落地经验分享。此外,除了网易的音视频专家,大会还专门邀请到了合作伙伴英特尔的技术大咖参与其中。
最后,陈功表示,期待以本次大会为契机,与更多音视频技术人建立交流与探讨的桥梁,听到更多音视频技术人的独到建议和看法,与所有从业者共同推动行业的健康持续发展。
产品为先,聚焦音视频多场景实践
在上午的产品专场,大会邀请到了来自网易智企、网易云音乐、网易传媒、网易伏義等业务的产品专家,分享音视频技术如何在各业务场景融合及落地。
产品专场出品人:网易伏羲瑶台产品总监 郭冠敏
网易伏羲瑶台产品经理张书超分享,元宇宙已成为数字新基建的重要组成部分,作为全国首个元宇宙落地产品,瑶台通过数字化技术打破了时间和空间的限制,构建了一个与现实世界并存的虚拟世界,并为用户带来了超越现实的极致观感和沉浸互动体验。张书超还进一步展开了瑶台在大型发布会、学术会议、云会展等场景的成功实践经验。
网易云音乐 AI 音乐产品经理江琳以 2020 网易未来大会上发布的全链路 AI 驱动歌曲《醒来》为切入点,为观众打开了 AI 音乐的细分垂直领域。随着中国数字音乐市场规模快速扩张,音乐人群体也迅速扩大,与之相对的是低门槛的音乐人工具缺失。网易云音乐展开了以技术赋能音乐内容、以工具加速音乐创作能力转化的业务探索,通过 AI 编曲、AI 作词、一键 AI 写歌等全方位的能力覆盖,打造业界首创的词曲编唱全 AI 音乐创作工具,让更多音乐爱好者参与到音乐内容创作中。
在全民视频的时代,视频理解是大势所趋。网易传媒内容理解和质量方向产品经理吴继美介绍,网易新闻同样具备视频理解的需求,并通过实践不断提高机器理解视频的技术能力,实现对视频信息从点到面的收集及精密的识别计算,最终按需输出视频特征的目的。基于对视频理解技术的精耕细作,网易新闻有效保障了新闻信息的质量和安全性,同时不断缩减机械重复的人力工作,取得降本增效、推荐效果提升的成绩。
网易智企云信娱乐社交行业产品经理聂夏军分享了音视频技术在娱乐社交中的应用。聂夏军指出,人是社会性动物,需要通过社交建立彼此之间的联系,而娱乐化互动方式能帮助人们更好地打破陌生人的冰冷关系。随着音视频技术发展,娱乐社交玩法越来越丰富,视频直播、语音聊天、在线 K 歌、在线相亲、游戏社交等都成为了常见的社交场景。在这些纷繁复杂的场景中,网易云信音视频技术提供了可靠支撑,如:在语音聊天中消除噪音,提供最纯净的语聊环境;在线 K 歌时消除回声,确保良好的 K 歌体验;3D 空间音效技术为游戏用户带来了“声音方向感”;智码超清技术在实现更高画质的同时节省更多码率……此外,网易云信音视频技术还面向不同国家的复杂网络和低端机型进行了特殊优化,能帮助国内企业在海外市场的角逐中占得先机。
技术奠基,夯实音视频创新沃土
下午场为技术专场,邀请了来自网易智企、网易云音乐、网易传媒、网易伏義等业务的技术专家,分享前沿的技术创新成果。值得一提的是,大会还首次邀请到了来自合作伙伴英特尔的技术专家前来“做客”。
技术专场出品人:网易云音乐音视频实验室负责人 刘华平
网易伏羲虚拟交互技术负责人毕梦霄介绍了元宇宙的虚拟场景和虚拟角色两大基础设施。其中,网易瑶台解决了虚拟场景的问题,用户可以通过瑶台“前往”任何想去的地方。而在虚拟角色方面,毕梦霄详细分享了网易伏羲在虚拟角色创建和虚拟角色驱动上的技术实践,包括视觉形象创建、语音形象创建、语音合成、表情合成、动作合成、歌声合成、舞蹈合成等环节。
网易云音乐音频算法专家李鹏则讲述了如何从 0 到 1 搭建高质量歌声合成系统。李鹏介绍,歌声合成是通过输入歌词和旋律进而合成演唱干声的过程,目前已经具备很多的应用和创新玩法,并重点从数据构建、模型设计、细节处理三个方面详细介绍了高质量歌声合成系统研发的全流程。结合业务诉求,歌声合成的未来探索方向将从小样本音色定制、演唱技巧调教、AI 辅助音乐创作等方面展开。
网易传媒推荐中心多模态理解技术负责人赵栋表示,音视频技术已从数据层、算法层、业务层全面贯穿应用于网易新闻。赵栋从多模态理解视频类别和标签、多维度内容理解视频封面选取、视觉相似特征、图像和视频增强等方面具体阐释了音视频技术如何为网易新闻的用户使用时长、用户体验、人均互动 PV 增长带来价值。
网易智企云信视频编解码算法专家苗晋伟分享,当前视频行业正处于高速增长期,其中超高清视频在其中扮演了重要的角色,根据权威机构预测,2022 年超高清视频产业市场规模将有望达到 4 万亿。然而,随着视频分辨率不断提高,其在网络传输中的带宽成本也越来越大,市场迫切需要一项既能保证视频分辨率又能有效控制带宽成本的极致压缩技术。网易云信推出的智码超清技术很好地兼顾了上述两大问题,并在视频超分、编码技术等方面达到行业领先水平,让用户在同等码率下尽享更加极致、更高质量的超高清视觉体验。
英特尔中国行业解决方案事业部互联网技术专家张立宇分享了基于英特尔技术的端到端音视频优化经验。张立宇表示,当前数字经济与实体经济正在加速融合,成为中国经济发展的新引擎,在这过程中,音视频技术的应用日渐广泛,价值愈加凸显,甚至已成为了互联网“水电煤”一般不可或缺的基础设施之一。与此同时,随着直播、游戏、电商、VR 等典型场景的普及,用户对视频的需求和体验要求越来越高。为此,英特尔通过一系列先进产品与技术方案提供和优化算力、存储、网络和软件能力,以灵活可扩展的生态和各类成熟的解决方案,横跨从基础硬件到上层应用的全部产品,以及从数据采集、预处理、编码、数据传输、分析解码、分发的全链路过程,利用英特尔全栈技术提升优化音视频处理能力,在保证品质的同时提升效率,帮助客户应对不同场景下的差异化需求,并为用户提供更好的体验。
英特尔中国行业解决方案事业部互联网技术专家 张立宇
小 结
本次大会,来自音视频各个细分领域专家们的精彩分享,为行业发展提供了新的思考和见解,也为行业实践提供了切实可行的落地方案,让音视频的技术沃土长出更繁茂的枝叶,为其带来更长久的繁荣。
大会数据显示,讲师们的真知灼见吸引了超过 10 万人次观看,并广受观众认可。
为方便观众重温回顾,促进技术交流共享,大会回放视频将陆续发布于 MCtalk 技术学院、云商会等平台,所有讲师分享的内容干货也将陆续发布于“网易智企技术+”微信公众号,敬请各位关注。
好文章,需要你的鼓励
西部数据首席产品与工程官Ahmed Shihab表示,公司HAMR技术进展顺利,OptiNAND能提供容量优势。HAMR技术物理原理已突破,正进行制造工艺优化。相比希捷10盘片技术,西数11盘片设计提供更大发展空间,可更快推向市场。OptiNAND结合UltraSMR算法可实现更高单盘容量。公司采取保守策略,注重可靠性,客户已完成相关软件认证。硬盘在数据经济中仍是基础,在视频监控等写密集型应用中具备成本和耐久性优势。
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
一旦人工智能达到通用智能(AGI)或超级智能(ASI)水平,人类将无法逆转回传统AI。AGI与人类智力相当,ASI则超越人类智慧。由于人类会对此类AI产生依赖,且AGI/ASI具备自我保护能力,通过全球禁令、内置终止开关或控制措施都难以有效阻止。AI末日论者担心existential风险,而AI加速主义者认为将解决人类问题。唯一可能的逆转机会是AGI/ASI主动选择关闭自己以拯救人类。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。