数据作为数字经济时代的关键要素,仍有巨大潜能亟待释放。大量闲置数据资源、数据孤岛等问题让释放数据价值掣肘颇多,如何充分实现数据安全并提升数据融合能力已成为全球性的课题。在4月18日,由腾讯主办的“腾讯大数据高峰论坛”上,腾讯自研的第四代数智融合计算平台,以及联合腾讯研究院等各方撰写的《腾讯隐私计算白皮书2021》等预计将成为行业关注的焦点。
据了解,本次会议主办方邀请到中国科学院院士梅宏、中国信息通信研究院云计算与大数据研究所副所长魏凯、腾讯数据平台部总经理蒋杰、腾讯数据平台部副总经理刘煜宏、埃森哲战略与咨询董事总经理袁虹等国内大数据领域领军人物,将围绕国家大数据、AI战略以及数据隐私保护等主题展开,探讨如何消除数据隐私安全与数据开放共享的对立性,以连通更多数据矿藏,释放数智融合价值。
十年打磨,腾讯第四代数智融合计算平台即将“利刃出鞘”
作为中国大数据技术的积极躬耕者和引领者,腾讯大数据经过十年的发展,走出了一条从开源整合到自研、从规模化到智能化的发展之路。自2009年起,腾讯大数据团队就开始海量大数据处理的探索,第一代大数据平台依托Hadoop生态,围绕着离线计算模式化进行业务场景优化,构建出能够稳定支撑小时/天级别的计算任务数据处理平台。
2012年前后,腾讯通过引入Spark、Storm、Flink等实时计算处理框架,让大数据平台处理性能迈入毫秒级别,推动平台迭代至以实时计算为特色的第二代。随着深度学习技术的兴起,腾讯大数据团队从2015年开始从0到1自研机器学习框架Angel,推动大数据处理正式进入智能化时代。
至此,全球大数据技术的发展似乎进入瓶颈期,下一代大数据计算平台究竟往哪个方向发展成为业界关注的焦点。
带着这样的疑问,腾讯基于对于数据治理和数据建模的理解,从2019年便开始着手规划建设第四代计算平台,通过引入批流融合、数据湖、联邦学习等新型技术,围绕安全、智能、统一等能力打造下一代腾讯数智融合计算平台。
据腾讯数据平台部副总经理刘煜宏透露,即将发布的第四代数智融合计算平台,将聚焦统一平台的研究,包括大数据和人工智能的统一,实现数据处理和数据挖掘统一,提供一站式数据处理交互体验。同时,将在实现保护数据隐私的同时,提供联合数据分析、联合数据建模等能力,实现数据的互融互通,释放数据价值。这其中,智能化能力将作为整个腾讯大数据平台的大脑,融合平台本身的日志、事件、指标特征等数据,通过机器学习算法,实现平台的自动化智能化运行,助力开发者、企业、以及政府的数字化、智能化升级。
凝聚业界共识,《腾讯隐私计算白皮书》即将发布
伴随着云计算、大数据、人工智能等新一代信息技术的落地应用,数据作为战略性和基础性资源,不但是连接虚拟空间和实体空间的纽带,也是数字经济体系中技术创新、需求挖掘、效率提升的重要动能。
但从实际应用来看,海量数据散落于不同的组织机构和信息系统中,即使是同一区域、产业和企业,数据也仍存在“孤岛”问题。数据的多方协作已经成为医疗、工业、零售、金融、政务等领域全面转型升级的重要路径,要破解数据多方协作难题,数据安全和合规成为首要解决的问题。在此背景下,隐私计算应运而生。
作为在数据融合应用过程保障数据安全合规的关键技术路径,隐私计算(Privacy Computing)可以保证参与方在不泄露各自数据的前提下,通过协作对他们的数据进行联合机器学习和联合分析,其商业模式、应用场景、技术变革、产业趋势、法律问题等正成为当前政产学研用各界探索的技术热点。本次峰会上即将发布的《腾讯隐私计算白皮书》旨在凝聚业界共识,从发展背景、技术体系、应用场景等维度出发,共同推动隐私技术产业的发展,探索在数字时代中发展和安全的平衡点。
日实时计算量超40万亿,腾讯大数据助力数字经济腾飞
在支撑亿万级业务发展的过程中,腾讯大数据平台已经打磨出高可靠、高性能的平台能力,并通过腾讯云对全球用户开放。截至去年9月份,腾讯云大数据技术的算力弹性资源池达500万核,每日分析任务数达1500万,每日实时计算次数超过40万亿,能支持超过一万亿维度的数据训练,成为国内算力最强的云厂商,同时也是日实时计算量最大的公司。
依靠腾讯自身业务生态优势,腾讯大数据平台自诞生以来就为腾讯内部所有业务提供强力支撑。在去年疫情期间,腾讯大数据平台完美支撑了微信健康码、企业微信、腾讯会议、微信小程序、微信支付等“疫情活跃应用”的数据挖掘和处理需求。
在服务外部客户方面,腾讯大数据平台已为中国银行、建设银行、招商银行、中国人保、太平洋保险、海通证券、云南公安、江苏公安、江苏消防、山东电力、湖南国电等在内的众多行业客户提供领先的数据处理能力。未来,随着新一代数智融合平台的推出,腾讯大数据平台也将为更多行业持续输出更优质的大数据能力,助力数字经济腾飞。
2021腾讯大数据高峰论坛,4月18日开启线上同步直播
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。