在不确定性的环境下,目前唯一可以确定的就是企业数字化转型,而数字化技术已经成为各大企业应对“乌卡 (VUCA) 时代”的一个关键路径。伴随着数字化转型的深入推进,作为与土地、劳动力、资本、技术一样的生产要素,数据的地位愈发凸显,如何发挥数据的价值,让数据成为资产呢?
每年人们的生活、生产中会产生大量的数据,这些原始数据通常存在质量差、价值密度低等问题,在经过采集和存储后,通常需要经过多次加工,包括但不限于治理、建模和分析挖掘等工作,才能达到数据的规范化、资产化,实现数据的共享和流通,进而发掘数据的使用价值,推动业务的自动化和智能化,实现数字化转型。
在从原始数据到数据资产化、价值化的过程中,一般需要三层软件技术能力的支撑,以构建数字化基础设施,实现数据管理能力:
最底层是基础软件,提供信息系统的基础能力,一般包括大数据基础平台、数据库、数据中间件和数据科学平台等,对多种场景、多种来源、多种类型的源数据进行有效的采集、储存、管理,并提供相关开发平台和工具,统一管理业务中所需要的数据,让客户在数字化转型时有坚实的数据和工具支持。
中间层是数据应用系统,构建在基础软件之上,包括数据湖、数据仓库、数据集市、情报搜索、数据共享流通平台等,可按照业务特性来整理和加工数据,为业务数字化提供高价值、易用的数据和工具,满足用户各场景应用的数据需求,为业务部门开发业务应用系统提供客观条件。
最上层是业务应用系统,包括为业务部门构建的数字化运营、数字化决策、智能制造、数字营销、智能风控等应用系统,助力客户实时、准确地进行商业决策,提高业务运营效率,并创造更优的解决方案等,从而将数据价值转换为业务价值,实现数字化转型。
由此可以看出,大数据基础软件是指提供信息系统的基础能力, 一般包括大数据基础平台、数据库、数据中间件和数据科学平台等, 对多种场景、多种来源、多种类型的源数据进行有效的采集、储存、管理,并提供相关开发平台和工具, 统一管理业务中所需要的数据, 让客户在数字化转型时有坚实的数据和工具支持。
大数据基础软件由以下三个部分组成:
一是大数据管理平台,可以细分为两个部分,一部分是大数据基础平台,包含关系型分析引擎、宽表数据库、文档数据库、图数据库、时序数据库、键值数据库、消息队列、分布式文件系统、实时流计算引擎、搜索引擎等单一组件或相关功能单元的软件。常见的公司有ArangoDB、Snowflake、星环科技等。
另一个部分是分布式/并行关系型数据库,包含分布式关系型数据库、大规模并行处理 (MPP)数据库等软件。常见的公司有星环科技、PingCAP等。
二是数据应用中间件,包括针对数据采集、数据整合、数据治理、数据资产、数据建模、数据安全、数据共享与服务、可视化分析等一系列数据处理工具和中间件。常见的公司有东方通、普元信息等。
三是数据智能分析工具,包括通过机器学习、深度学习等技术支撑数据挖掘、预测性分析等场景的工具和平台。常见的公司有第四范式、九章云极等。
大数据管理平台、分布式/并行数据库、数据应用中间件、数据智能分析工具等构成的大数据基础软件不但是企业最终实现数字化的技术基础,其技术水平决定了业务应用系统的能力边界和创造数据价值的效率,而且也是目前以数据生成、采集、存储、加工、分析、服务为主的国家战略性新兴产业大数据产业发展的根基。
中国大数据市场在过去五年经历快速增长,2021年市场规模达到创纪录的1.3万亿元,中国大数据软件市场年复合增长率达29.5%。目前支持多模型数据统一处理的大数据平台实现了从GB到PB不同数据量的多源异构数据的快速存取、高效计算和统一管理,一站式地解决企业各类数据管理需求。
随着摩尔定律的失效,以前靠升级硬件实现Scale Up纵向扩展的方式已经不可行了。沿着同样的路线再造一个Oracle根本不可能,也没有意义。当数据量达到一定量级时,让数据库Scale Out横向扩展的分布式数据库成为是发展的方向。
而用国产的大数据基础软件替代甲骨文、微软、IBM等国外的基础软件和开源软件,实现信息技术自主可控,不仅是国家数据安全的保障,更是数字经济发展的中坚力量,是加快经济社会发展质量变革、效率变革、动力变革的重要引擎。
好文章,需要你的鼓励
当AI遇到空间推理难题:最新研究揭示GPT-4等顶尖模型在传送门解谜和立体拼图中集体"挂科",复杂智能远比我们想象的更难实现。
智谱AI和清华大学联合发布GLM-4.1V-Thinking视觉语言模型,通过创新的推理导向训练框架,让AI学会像人类一样深度思考后再回答。该模型在多个基准测试中超越了规模更大的竞争对手,并首次在开源社区提供了完整的多模态推理解决方案,为AI技术的实际应用开辟了新路径。
2025施耐德电气智算峰会上,全新EcoStruxure(TM) Energy Operation电力综合运营系统正式亮相,定位场站级智慧能源管理中枢,集技术领先性与本土适配性于一体。
这项由中国人民大学与斯坦福大学、微软公司合作的研究,开发出名为MoCa的革命性多模态AI技术。该技术通过双向注意力机制和联合重建训练,让AI能够像人类一样同时理解图片和文字,并建立深层语义关联。在大规模测试中,MoCa显著超越现有技术,30亿参数模型就能匹敌传统70亿参数模型,展现出强大的实用潜力和应用前景。