数据治理的重心,已经从“管”,晋升到“用”,其目的不是为了管好数据,而是为了数据好用和用好数据。数据目录的建设就是体现这一侧重转变的最好说明,为了让各种用户快速方便地查找他所需要的数据,而构建数据资产目录。
其目的是为了用,就需要认真面对一系列的问题,哪些数据需要纳入目录管理?哪些数据是资产?数据资产的价值是否实现?如何评定资产是否被很好的使用起来?建立好目录之后如何使用?
不同的用户,针对不同的数据使用场景会给出不同的答案,但最终的目的都是为了数据治理的成果被使用起来,当然数据治理不是单纯一个数据目录就能实现的,更是和企业的业务流程和治理策略相关的。
数据标准是数据治理中不可少的部分,治理的过程也是落标的过程,其中数据质量和问题的体现,很多情况下并不是数据的问题,而恰恰是数据标准的问题,是定义业务定义和业务规则的质量问题。
数据质量的管理除了对数据进行清洗转换,提升数据质量外,还要进一步促进数据标准的建立和统一,从而逐步减弱和消灭劣质数据,真正从根源提升数据质量,也为后期的数据准备降低清洗和转换工作量。
企业数据环境复杂多样,数据量和新的数据源也层出不穷,单纯靠人力去梳理复杂关系,不仅仅是一个漫长繁重的工作,另外主观的意图和方法还会导致一些重要的信息的缺失和遗漏。自动化的盘点、智能的分析和推荐、自动的比对和关联,自动的关联数据校验,都是治理工作中所迫切需要的,这样的数据治理环境,不仅提升数据管理的层次和水平,也激发参与管理的人员的灵感和创造性,使数据治理逐渐成为一种主动的行为。
数据治理在构建好以数据目录为中心的数据基础后,更要具有给上层分析应用和AI建模等提供数据服务的能力,真正体现数据价值。业务人员、数据分析人员和数据科学家等都可以通过数据目录查看到需要的数据,了解数据轮廓、数据质量,进行数据可视化查看,根据需要进行数据精炼,从而进一步使用数据。
咨询热线:400 668 2350
好文章,需要你的鼓励
帕洛阿尔托创业公司Catio在VentureBeat Transform 2025大会上获得"最酷技术"奖。该公司成立于2023年,已筹集700万美元资金。Catio推出的AI技术架构副驾驶将架构重新定义为可编码、可内省和智能演进的活体系统。通过结合实时架构地图和多智能体AI组织,帮助工程团队从被动决策转向持续主动的架构优化,为CTO和架构师提供数据驱动的架构决策支持。
这项由中国移动和Zero Gravity实验室合作的研究成功突破了大模型训练的网络带宽限制,首次实现在1Gbps网络下训练1070亿参数模型,速度比传统方法快357倍。通过流水线并行、延迟重叠机制和自适应压缩算法的创新组合,为分布式AI训练开辟了新可能。
谷歌在ISTE教育技术大会上发布超过30款AI教育工具,包括专为教育打造的Gemini应用、协作视频制作工具Google Vids扩展访问权限等。教师可利用AI技术进行头脑风暴、生成教案、个性化学习内容,还能创建定制版Gemini"助手"为学生提供额外支持。新工具还包括AI阅读伙伴、学习进度追踪、Chrome设备管理等功能,旨在通过"负责任的AI"推动个性化学习体验。
这项研究介绍了MADrive系统,一种革命性的自动驾驶场景模拟技术。该系统通过一个包含7万辆真实车辆的数据库,能够将普通驾驶录像转换成各种危险场景的高逼真度模拟,为自动驾驶系统提供安全的训练环境。实验表明,相比传统方法,MADrive在多个关键性能指标上都有显著提升,为解决自动驾驶训练数据稀缺问题提供了新思路。