数据治理的重心,已经从“管”,晋升到“用”,其目的不是为了管好数据,而是为了数据好用和用好数据。数据目录的建设就是体现这一侧重转变的最好说明,为了让各种用户快速方便地查找他所需要的数据,而构建数据资产目录。
其目的是为了用,就需要认真面对一系列的问题,哪些数据需要纳入目录管理?哪些数据是资产?数据资产的价值是否实现?如何评定资产是否被很好的使用起来?建立好目录之后如何使用?
不同的用户,针对不同的数据使用场景会给出不同的答案,但最终的目的都是为了数据治理的成果被使用起来,当然数据治理不是单纯一个数据目录就能实现的,更是和企业的业务流程和治理策略相关的。
数据标准是数据治理中不可少的部分,治理的过程也是落标的过程,其中数据质量和问题的体现,很多情况下并不是数据的问题,而恰恰是数据标准的问题,是定义业务定义和业务规则的质量问题。
数据质量的管理除了对数据进行清洗转换,提升数据质量外,还要进一步促进数据标准的建立和统一,从而逐步减弱和消灭劣质数据,真正从根源提升数据质量,也为后期的数据准备降低清洗和转换工作量。
企业数据环境复杂多样,数据量和新的数据源也层出不穷,单纯靠人力去梳理复杂关系,不仅仅是一个漫长繁重的工作,另外主观的意图和方法还会导致一些重要的信息的缺失和遗漏。自动化的盘点、智能的分析和推荐、自动的比对和关联,自动的关联数据校验,都是治理工作中所迫切需要的,这样的数据治理环境,不仅提升数据管理的层次和水平,也激发参与管理的人员的灵感和创造性,使数据治理逐渐成为一种主动的行为。
数据治理在构建好以数据目录为中心的数据基础后,更要具有给上层分析应用和AI建模等提供数据服务的能力,真正体现数据价值。业务人员、数据分析人员和数据科学家等都可以通过数据目录查看到需要的数据,了解数据轮廓、数据质量,进行数据可视化查看,根据需要进行数据精炼,从而进一步使用数据。
咨询热线:400 668 2350
好文章,需要你的鼓励
南洋理工大学研究团队开发了WorldMem框架,首次让AI拥有真正的长期记忆能力,解决了虚拟世界模拟中的一致性问题。该系统通过记忆银行存储历史场景,并使用智能检索机制,让AI能准确重现之前的场景和事件,即使间隔很长时间。实验显示在Minecraft和真实场景中都表现出色,为游戏、自动驾驶、机器人等领域带来广阔应用前景。
AWS通过升级SageMaker机器学习平台来扩展市场地位,新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争,AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权,以及支持本地IDE连接部署。这些更新主要源于客户需求,旨在解决AI模型开发中的实际问题。
MTS AI研究团队提出RewardRanker系统,通过重排序模型和迭代自训练显著提升AI代码生成质量。该方法让13.4B参数模型超越33B大模型,在多种编程语言上表现优异,甚至在C++上超越GPT-4。通过引入困难负样本和PPO优化,系统能从多个代码候选中选出最优方案,为AI编程助手的实用化奠定基础。