近日, 华为云数据智能创新Lab与华为云计算专家委员会携手CCF数据库专委会、CSIG可视化与可视分析专委会、InfoQ极客传媒,在杭州举办了第一届华为云“数智高峰论坛”,旨在与专家学者探讨未来数据智能领域的技术难点和研究方向,共同应对数字经济迅猛发展所带来的挑战。
会上,华为云多名资深技术专家联合来自清华大学、北京大学、浙江大学、哈尔滨工业大学、西北工业大学、同济大学、中南大学等高校的知名学者,对数据质量、数据治理、数据可视分析等关键课题展开了深入的探讨,吸引了上千名数据智能领域的研发人员共同参与。
在致辞环节,华为云CTO张宇昕发表了讲话。他表示,数字化转型的核心要围绕着“数智”展开,把企业的核心资产利用好,把数据管好用好。产学研需要把数据全生命周期加以利用,充分发挥数据价值,进而提升企业的管理能力和效率、降低企业的成本。我们需要用数据湖、全生命周期的数据治理、人工智能与数据结合的技术,解决数据孤岛的问题、让数据为企业服务,为数智融合探索出创新之路。
随后,华为云架构与技术创新部部长朱海培在致辞中表示,公有云的应用趋势日趋增强,数据的资源占用比持续上升,云上的数据越来越多,释放数据的价值越来越重要。随着数据与存储分离的架构以及Serverless架构的发展,Share Everything成为技术趋势。企业上云,使得数据孤岛的问题在云上得到一定解决,应用共享数据更加快捷。所以,华为云数据智能创新Lab的三大核心工作包括:第一,让数据价值最大化;第二,让数据成本降低;第三,解决开发过程人力投入高、效率低的问题。
数据智能创新LAB主任LU HONG进行了“面向智能决策的现代化企业操作系统”主题演讲。 针对企业面临的3大挑战,即成就业务压力大、技术架构复杂、IT人员短缺,数据智能创新LAB以建设开放互通的企业数据智能基础设施为理念,提供自动、智能、安全的DaaS、DLaaS、MaaS、DIaaS、DSaaS服务,促进企业数据智能驱动决策。
数据智能创新Lab副主任龙江带来了《数据智能创新LAB业务介绍》,详细介绍了Lab的业务、组织、与发展历程,以及LAB面向大数据全域全栈都有的研究课题,包括AI4Data的智能治理分析算法引擎、面向下一代的ModernBI技术、基于动态本体的企业语义数据图谱等等。
结合大数据与人工智能技术实现大数据智能是促进新业态跨界融合与创新服务的关键
工业4.0是大数据驱动的智能工业,大数据能够助力现代产业数字化变革、转型,加速人类社会向智能时代迈进。浙江大学高云君教授表示,人工智能的兴起为大数据时代提供了新机遇,结合大数据与人工智能技术实现大数据智能是促进新业态跨界融合与创新服务的关键。大数据海量、多样、高速等特点,亟需智能治理与分析,挖掘潜在价值。传统的算法分析力差、挖掘深度浅,亟需利用智能技术进行深入分析与挖掘。“智慧化”是社会发展的新趋势,建立健全的智慧应用体系需要大数据智能技术支撑。
正确的数据,千篇一律;错误的数据,五花八门
清华大学宋韶旭副教授认为,如何有效地发现数据中的质量问题是数据治理研究的核心难题之一。质量规则挖掘的研究在结构化数据中不仅用于识别“脏”数据,还可以对业务规则进行有效的诠释;模式匹配研究在图、时序、日志数据中发现未知的异常也取得了不错的效果。不断完善数据的匹配、画像、验证、修复等四个环节,是数据质量管理实现智能化的重要基础。
大数据和人工智能是研究的一体两面
哈尔滨工业大学王宏志教授在主题演讲中提出,数智协同将成为未来研究的趋势之一。大数据和人工智能的协同作用可以分为AI4BD(即AI使能数据)和BD4AI(即数据使能AI)两个方面。在AI4BD方面,AI能够驱动数据进行智能管理,如存储管理、索引与查询、并发控制等;在BD4AI方面,大数据同样能够赋能机器学习,诸如高性能数据密集型计算平台、高效知识管理、数据质量管理等均离不开大数据的有效支撑。
渐进机器学习应用场景广泛,人工标注成本低,技术性能前沿
西北工业大学陈群教授表示,现有的人工智能技术存在不确定性和不可解释性,落地时经常带来不可预知的风险。为此,陈群教授提出了风险分析技术,并详细介绍了风险分析技术在数据质量管理、训练数据选择和模型训练中的运用,其适用于一般性人工智能分类问题,对机器学习的核心操作产生深刻影响。针对实际中训练数据与目标数据存在不严格满足独立同分布的场景,陈群教授提出了渐近机器学习,并详细介绍了渐近机器学习在文本情感分析和数据质量管理上的运用,其应用场景广泛、人工标注成本低、技术性能前沿。
自然语言和可视化都是人与人沟通的桥梁
自然语言和可视化的有机结合,对提升用户交互体验和理解极为重要。北京大学袁晓如研究员提出,借助人工智能的技术,一方面可以由自然语言生成可视化,通过语音交互自动生成刻画数据的可视化图表,或是根据自然语言的描述自动添加图表标注用于强调图表中的重点内容;另一方面可以为可视化图表生成描述性的文本,通过识别可视化图表中的关键元素,解析其语义信息生成解释图表内容的文本。有效利用自然语言这个纽带将大大提高人机交互的效率与友好性,降低普通用户进行可视分析的门槛。
好的可视化设计就像是一张精美的数据照片,可以促进与同事、朋友间的数据交流与分享
数据可视化设计已经经历了早期的科学可视化和大数据时代的信息可视化与可视分析,到如今跨入了人工智能时代的先进数据分析与智能可视化。同济大学曹楠教授在会上表示,好的可视化设计就像是一张精美的数据照片,可以促进与同事、朋友间的数据交流与分享。在很长一段时间,关于可视化的设计都是仁者见仁、智者见智问题。在目前已经有很多自动化算法、图形渲染的技术基础上,如何高效、直观、自动地进行可视化设计成为了一个新的趋势和瓶颈。为了解决这个技术难题,产学研界需要从叙事、可视化和设计三个方面综合考虑,通过不断地实践和用户交流,逐步地完成整个技术体系的构建。
深耕图可视化与可视分析技术,与企业联手打造可视分析产品,推动技术应用落地
网络黑灰产所带来的安全挑战愈加严峻,监管部门在治理过程中始终面临“缺乏自动的网络资产信息整合技术”和“直观的网络资产信息呈现手段”的两个难题。为此,构建黑灰产网络资产图谱并生成资产图谱可视化是一种行之有效的解决方式。中南大学赵颖教授认为,基于SE-BH-CAG布局、图化简、核心资产识别和LFM-CAG社区检测算法等可视化技术的联合使用,能有效提升视觉展示的效果和计算分析流程的效率,提供准确的核心资产识别,并确定黑灰产作用范围。其产学研成果最终落地“定海”,将有效助力黑灰产的治理。
数智领域难题发布,校企联合共同助力产业发展
在圆桌论坛环节,华为云数据智能创新Lab发布了“企业级本体与数据语义图谱构建技术”、“多模态数据源智能路由索引与自然语言查询技术”、“基于SQL的ETL流水线执行优化技术”、“多维指标智能分析”和“智能数据质量稽查”等6大数据智能领域的难点课题。专家、学者们围绕难题各抒己见,展开了热烈的研讨。
本次华为云“数智高峰论坛”受到了业内专家与学者的广泛关注,不仅为高校研究带来了新的研究方向与挑战,也为企业开创新解决方案拓展了视野。
未来,华为云数据智能创新Lab将与更多的专家学者开展技术合作,不断探索数智领域新航线,推动数据技术领域新发展,通过校企联合创新助力客户的业务成功,同时欢迎志同道合的研发专家加入华为云数据智能创新Lab。
好文章,需要你的鼓励
在我们的日常生活中,睡眠的重要性不言而喻。一个晚上没睡好,第二天的工作效率就会大打折扣,而充足的睡眠不仅能让我们恢复精力,还能帮助大脑整理和巩固当天学到的知识。有趣的是,AI模型竟然也表现出了类似的“睡眠需求”。
DeepSeek-AI团队通过创新的软硬件协同设计,仅用2048张GPU训练出性能卓越的DeepSeek-V3大语言模型,挑战了AI训练需要海量资源的传统观念。该研究采用多头潜在注意力、专家混合架构、FP8低精度训练等技术,大幅提升内存效率和计算性能,为AI技术的民主化和可持续发展提供了新思路。
尽管模型上下文协议(MCP)自11月推出以来用户数量快速增长,但金融机构等监管行业仍保持谨慎态度。银行等金融服务公司虽然在机器学习和算法方面是先驱,但对于MCP和Agent2Agent(A2A)系统的采用较为保守。监管企业通常只使用内部代理,因为其API集成需要经过多年审查以确保合规性和安全性。专家指出,MCP缺乏基本构建块,特别是在互操作性、通信标准、身份验证和审计跟踪方面。金融机构需要确保代理能够进行"了解您的客户"验证,并具备可验证的身份识别能力。
加拿大女王大学研究团队首次系统评估了大型视频语言模型的因果推理能力,发现即使最先进的AI在理解视频中事件因果关系方面表现极差,大多数模型准确率甚至低于随机猜测。研究创建了全球首个视频因果推理基准VCRBench,并提出了识别-推理分解法(RRD),通过任务分解显著提升了AI性能,最高改善幅度达25.2%。