走进 Intelligent Data Fabric——找到数据价值中的“那颗星”

数据迁移的成本如何解决?研究人员怎样快速高效地找到正确的数据?数据安全又如何得到保障?Data Fabric 给出了答案。

1944年,电子管计算机 MARK-1 和 MARK-2 制成;1964年,划时代的 System/360 大型机面世;1981年,世界上第一台个人电脑发布;2011年,Watson 在《Jeopardy!》节目中击败人类冠军,刷新了人们对于 AI 能力边界的认知……这一系列的技术创新背后,始终有一位“蓝色巨人”的身影。如今,这家企业正计划在 2023年推出 1000个量子比特的量子计算机,引领产业迈入全新的量子时代。这就是 IBM。

在 110年的历史长河中,科技产业经历了翻天覆地的变化,有不少商业巨擘销声匿迹,也涌现出了无数的行业先行者。而在快速更迭的科技浪潮之下,IBM 一直在通过不断的创新和转型持续保持竞争力,其底气来自于该公司的 3000多位科学家、10万多位研发者,甚至还培养出了 6名诺贝尔奖得主和 6名图灵奖得主。2020年,IBM 的科学家和研究人员共获得了 9130项专利,数量位列所有企业之首。当然,IBM 之所以能够在每一次科技变革的十字路口都能找到正确的方向,更重要的是在于果断的决策和笃定的执行。

“从 IBM 的技术发展途径和策略上来讲,主轴一直是稳定的、统一的。”IBM 大中华区科技事业部客户成功管理部总经理朱辉谈到,“我们认为,IBM 现在已经是全球领先的混合云与 AI 技术的供应商,也秉承着一贯以来的理念,正在成为客户在数字化转型进程中值得信赖的合作伙伴。”IBM 的这种转变是由上及下、由内而外的。市场销售层面,IBM 形成了以数字化转型、混合云与 AI 能力为主轴的咨询服务体系,通过 Technology Garage、Design Thinking Workshop 等方式与客户共同创新,帮助客户运用最新的技术在产生新的业务价值的过程中,去发现、定义新的业务场景和 MVP(最小可行性产品)。产品研发层面,将软件产品线基于客户使用场景集成打包,通过 Cloud Paks 以容器化的方式在任意平台上以微服务的方式进行交付。

走进 Intelligent Data Fabric——找到数据价值中的“那颗星”

IBM 大中华区科技事业部 客户成功管理部 总经理 朱辉

上述变化已完全融入到 IBM 日常的市场进入(Go to Market)策略中。在过去的 12个月,IBM 的云业务营收达到 270亿美元,超过总收入的三分之一,全球有 3200多个企业级客户在使用 IBM 的混合云平台,有 4万用户在使用 IBM 的企业级 AI 技术。与此同时,这些企业也在思考如何在混合 IT 环境中取得更大的突破,例如:快速、简单、低风险、低成本的搭建混合云环境的基础架构;实现智能自动化,专注于高价值工作,提高生产力;利用 AI 使得数据价值最大化。根据 IDC 在 2020年初的一份调查报告,有 90% 的企业数据或无从访问、或无法信任、或未被分析利用,导致企业在决策时受到较大的阻碍。面对着这些新诉求,IBM 提供了一个 AI 赋能的数据架构——Intelligent Data Fabric。

构建数据神经网络

从 20年前的数据仓库到 10年前的大数据和数据湖,企业业务的演化促使着数据架构随之改变。起初,企业会将各个业务系统的数据抽取出来以中心化的方式放到数仓,并不需要复杂的数据架构和数据模型,原因是早期的数据量偏少。随着非结构化数据的涌入,大数据处理成为常态,企业对数据价值的重视程度与日俱增,开始寻找新的工具进行深度挖掘和元数据管理。由此,数据架构逐渐走向分布式和跨平台。不过,这又引发了新的问题:数据迁移的成本如何解决?研究人员怎样快速高效地找到正确的数据?数据安全又如何得到保障?

Data Fabric 给出了答案。“简单地说,就是在正确的时间,从任意位置,将正确的数据与正确的人连接起来,从而全面释放数据价值,加速企业的数字化转型。”朱辉解释称。进一步说,Data Fabric 是以智能、安全和自服务的方式,动态地协调分布式的数据源,跨数据平台提供可信赖的数据,从而支持各种分析及应用场景。在工作方式上,Data Fabric 并不是简单的点对点连接,而是像人脑一样构建了一个虚拟的“神经元网络”。

对于那些担忧数据共享效率和可靠性的人而言,无论是从事技术岗位还是业务岗位,都能从 Data Fabric 中找到新的价值,从而将更多的精力放在数据分析上,避免由于数据访问限制而造成的数据分析偏差,数据的质量和处理过程也得到了大幅优化。这种转变离不开企业的自动化能力提升,一项针对企业 AI 采用情况的调研显示,疫情期间,将 AI 融入业务流程已成当务之急。在受访的 IT 专业人士中,有 43% 表示其公司加快了 AI 进程。在全球受访的 IT 专业人士中,近半数表示他们在评估 AI 供应商时,很大一部分是衡量供应商对流程进行自动化的能力。

IBM Intelligent Data Fabric 的自动化能力体现在四个方面:

AutoSQL:无需移动数据,即可大规模实现自动化分布式查询,降低了人们对数据来源的掌握门槛;

AutoAI:实现模型训练优化的自动化,提高了准确性和可解释性;

AutoCatalog:可以根据发现数据和分类的流程实现自动化,分类后建立自动化目录,维护来自不同数据环境数据资产的动态的实时目录,为跨企业内不同业务团队之间的数据实现轻松查找; 

AutoPrivacy:实现企业内部敏感数据识别、监控,以及后续政策实施的自动化。

Data Fabric 的最佳载体

基于开放的混合云平台 OpenShift,IBM 将 Intelligent Data Fabric 融入到 Cloud Pak for Data 中,以容器化产品的方式快速向客户交付。可以说,承载了 IBM 企业级 AI 能力的 Cloud Paks,是 IBM 混合云与 AI 战略的一个重要支点。在 Cloud Pak for Data 4.0 版本中,整合了 AutoSQL、AutoCatalog、AutoPrivacy、AutoAI 能力,以及 WKC、Watson Knowledge Catalog 等数仓、数据治理和机器学习能力。通过在实验室环境中与 Snowflake 的比较,Data Fabric 能够把查询的速度提高 8倍以上,成本降低一半。

不过,Data Fabric 并不是 IBM 独有的概念,诸如 NetApp、informatica、Talend 等 IT 企业均推出了针对 Data Fabric 的解决方案,那为什么说 IBM Cloud Pak for Data 应该是当前业界应对 Data Fabric 功能最完善的数据平台之一呢?首先,其对于 Data Fabric 需要具备的四种能力有着较好的支持,包括数据之间的虚拟连接、企业数据目录、自动化数据平台、自动化安全策略,这也使得上述四大自动化能力之间有着更好的“化学反应”。

其次,IBM 数十年来的技术积累给了 Cloud Pak for Data 更多的底气,例如容器化的 DB2 云数仓、数据虚拟化技术的沉淀,以及结合了机器学习、知识图谱等能力的 Watson Knowledge Catalog 等等,交付客户上线之初就能确保在数据共享的过程中能符合类似 GDPR 的数据隐私保护要求。同时,IBM 作为一家老牌的专业数据集成的供应商,数据复制和数据集成的自服务能力也在日趋完善。

许伟杰是 IBM 中国混合云与 AI 华东及华南大区的总经理,加入 IBM 已有 15年的时间。作为一线的业务人员,他深知企业需求的变化和客户对 IBM 产品的反馈。“前段时间,我和上海某家著名的医疗大数据公司交流。面临的一个问题是,医院一方面不愿意把数据开放给某个大数据平台,但另一方面,医院又想分析数据,而单个医院的数据量又不够。如果采用了 Data Fabric 架构,加上 IBM 的区块链技术,使用类似联邦学习的概念,是不是就能让数据的读写、分析,以及拥有的权限相互独立?这样就把问题解决了。”许伟杰说。

走进 Intelligent Data Fabric——找到数据价值中的“那颗星”

IBM 中国混合云与 AI 华东及华南大区 总经理 许伟杰

12星座中的黑科技

几乎每过五年,许伟杰销售的产品中就会有 70%-80% 发生变化,这种现象既代表着 IBM 在不断推出新的技术和产品(很多黑科技产品的销量甚至是前两年的 3-4倍),也说明了中国客户的需求和认知能力在快速变化和提升。算法求解器 Cplex 和 Planning Analytics 是 IBM Cloud Pak for Data 包含的两项能力,其中,Cplex 在生产环境中计算最优解时有着更好速度和质量表现,在疫情期间帮助不少制造型企业实现了降本增效,例如在一些车企中支持多产线小时级的自动排产、在产销协同系统中做 APS 模块优化等,实现了单人跟进项目数量十倍的提升。

Planning Analytics 是一款 AI 赋能的绩效管理,主要用于全面预算、投资模拟、测算等领域,底层基于多维 cube 内存数据库,为企业提供了更强的预测能力,例如帮助芯片制造企业预估三年后给下游厂商的报价,以及与合作伙伴联手帮助房地产公司实现集中供地,在两分钟内算出 200套方案,让经营者了解到如果某小区原材料晚进一天,具体到每个房间的成本变化。类似的产品还有很多,像 Aspera 可以让异国的客户在同等线路和带宽的情况下,数据传输速度提升 10-20倍,这种技术还可能用于新能源的 OTA 升级等更多的场景。

许伟杰希望在 IBM 的众多黑科技中,挑选出更具创新性且能快速在业务场景落地的产品,并将这一项目命名为“12星座”计划,这些产品与中国客户的需求紧密结合,包括超算调度软件 LSF、算法求解器 Cplex、集成规划解决方案 PA、建模与分析工具 SPSS、AI 赋能应用资源管理平台 Turbonomic、可观测性 APM 平台 Instana 等等。值得一提的是,今年上半年 Cplex、PA 在中国交付的营收已经是去年的三倍。随着越来越多的标杆案例成功落地,将有更多的行业客户借助混合云与 AI 技术,解锁业务转型过程中的数据价值。

“如果了解 IBM 的产品就会知道,12星座的产品,在我 1月份接手的时候都不是主力产品。但是我有一个梦想,就是可以从我们的宝库里面 200多个产品中,挑出 12个真正能帮助中国企业带来价值的产品。之后,我希望把这部分的营收做到比传统主力产品的营收还要多,这是我一两年之内的愿景。”对此,许伟杰有着十足的信心。

结束语

未来 5年,IBM 希望专注做好一件事:那就是利用 IBM 的平台、软件、硬件、服务和生态的全方位能力,成为企业数字化转型的最佳技术伙伴。Data Fabric 的出现,正是为了帮助企业在茫茫的数据浪潮之中,找到最具价值的“那颗星”。而就像朱辉所说的,这条围绕数据价值的技术创新之路将会一直走下去,利用混合云和 AI 技术,让数据更公开、更民主、更安全,更能被普适的使用,让更多的人和企业充分享受到数据的价值。

>>>进一步了解Data Fabric 架构,加速企业数字化转型

来源:中关村在线

0赞

好文章,需要你的鼓励

2021

10/19

21:34

分享

点赞

邮件订阅
白皮书