利用机器学习启动数据治理2.0时代

3062217-3d164bd9fcbe689e.jpg

以前的数据治理尝试往往是“组织的”:包括建立数据治理委员会,设置数据所有者和数据管理员的角色,以及开发用于定义和批准数据策略的系统。在某些情况下,它依赖于“人为策略”,例如手动收集和存储元数据。通常,这些活动侧重于所谓的“数据生命周期”,即从数据收集和存储到交付到数据仓库或决策支持系统的过程。挑战在于限制数据治理活动以操纵组织图表或不需要思考的手动任务无助于实现运营数据治理的任何关键目标,例如:

扩展数据可用性并简化数据可访问性,使更多数据使用者能够查找和访问共享数据资产;

标准化数据语义,以便对数据使用者如何使用共享数据资产提供共同的理解;

提供可测量的高质量数据,用户高度信赖数据的可靠性。

这些数据治理目标有一个共同的驱动因素:数据消费或信息使用。但是,无法实现这些基本目标会降低组织有效共享和利用公司数据的能力,更不用说内部业务政策,外部法律法规或符合行业标准的高级信息指令的合规性和可审计性。

最近,行业趋势表明,人们仍然对定义企业数据战略和监督数据资产的获取,转换,构建,共享和隐私保护感兴趣。数据治理越来越多地将传统管理优先级(例如理解数据资产和统一业务术语的使用)与评估组织数据前景(包括整个企业的数据资产的库存,分类和记录)的新兴关键要求相结合。用于指导数据的组合解决方案是已知的,可信的和可用的。这意味着确保数据资产的性能 - 保证数据资产的一致性,对共享数据资产的透明访问,以及为数据使用者提供选择和使用数据资产所需的所有信息。

机器学习功能改进了数据目录用于开发集成数据治理策略的方式。智能数据资产目录有助于激励数据生产者和数据使用者协同工作,减少数据管理员描述数据的负担。提高数据的可用性和可访问性是提高企业数据资产意识的重要因素。大多数企业都有各种数据,但是当没有数据资产列表时,其中许多资产实际上都是隐藏的。这意味着需要数据清单流程来遍历整个企业,并识别和分类企业数据资产。扫描每个数据资产(无论是结构化的,半结构化的还是非结构化的)的内容的强大元数据系统可以推断数据资产的元数据,甚至可以基于嵌入内容对数据资产排序的敏感性。

从扫描推断的元数据可以根据已知的参考域和元数据进行分类和标记,并与定义的业务术语一致,这有助于标准化语义并提供对共享数据的共同理解。

映射数据生成工作流程并封装此数据亲缘关系可为数据质量评估和修复提供有价值的服务。在尝试识别数据错误的根本原因时,可以从发现点遍历数据血液并让数据管理员确定错误点。例如,如果您仔细阅读报告,业务分析师可能会收到与其直觉不一致的值的警告。在这种情况下,她可以通过跟踪数据的血液来检查值的创建方式,并可能确定在先前处理阶段引入的数据缺陷的来源以修复报告。

此外,数据斑马线映射是分析业务流程或数据源更改影响的最佳方式。例如,系统分析员可能希望在会计标准更改时确定哪些应用程序受到影响。

评估敏感数据正在迅速成为一项要求,尤其是需要保护个人隐私数据的全球法规正在增加。至关重要的是能够确定哪些数据包含有关个人的信息,以及是否根据一个或多个法规将其归类为受保护的。结合有关数据资产敏感性和数据业力的信息,数据管理员可以确定谁是用户,他们对具有敏感数据的数据资产具有哪些访问权限,以及控制以增加数据处理工作流以确保他们不受保护授权访问。

智能数据资产目录中收集的可搜索公司数据资产列表增强了数据的可访问性和可用性。使数据用户能够通过目录或标签搜索数据资产,使广泛的数据用户能够找到最符合其需求的数据集。智能数据资产目录可用于共享不同类型的元数据,包括:

描述源系统结构的物理元数据,例如表和字段。

描述语义信息的逻辑元数据,例如数据库描述,数据质量评估和相关数据管理策略。

描述如何在各种业务场景中使用行为元数据来处理数据资产。行为元数据可能是最重要的,因为它提供了对系统中每个对象的自动洞察,例如模式,表和顶级用户的流行度。

通过简化数据发现,自动推断元数据,提高这些推断的准确性,提供对业务词汇表,数据元素定义,数据血液和数据资产以及隐私保护等数据义务的可见性,帮助展示个人正确的数据资产并简化数据使用者查找和使用公司数据资产的能力。

虽然传统的元数据存储库或简化的数据目录提供了这些功能中的一些,但智能数据资产目录使用机器学习(ML)和人工智能(AI)算法来增强支持数据治理活动的能力。除了发现数据资产的物理和逻辑特征之外,机器学习还可用于挖掘辅助资产(例如交易和查询日志),以获取行为洞察力 - 识别哪些不同类别的数据消费者和哪些数据资产被访问。频繁地,正在执行哪些类型的查询用户,以及跟踪与记录的物理和逻辑元数据相关的协作。机器学习数据目录可以以多种方式使用高级分析算法,例如:

1.改进自动数据发现和分类

可以为自动数据发现过程提供种子,提供数据结构,类型和敏感性的分类。可以将发现过程的早期迭代结果提交给数据管理员和主题领域业务专家,他们将审查推断,根据需要进行更正,并提供其他类别和标签。机器学习算法将从这些人类交互中学习,以改进发现分类过程,提高推理的保真度,并减少对人类交互的需求。

2.提供数据消费者建议

不同的数据使用者可以使用智能数据资产目录来搜索满足其需求的数据资产。机器学习算法使用主动学习通过组合用户选择和动作来迭代地改进预测模型,以改进搜索结果和推荐,并将搜索结果显示给不同类型的数据消费者。类似的技术可用于验证现有的业务术语定义,并预测哪些数据资产可满足数据使用者的需求,从而更快地将正确的数据资产交付给正确的用户,以满足他们的报告和分析需求。

3.评估数据的敏感性以支持合规性

不同的法律对个人隐私数据有不同的定义。个人信息被认为是“个人的”或“私人的”。通过与人的交互,智能数据发现工具可以学习自动将数据属性分类为个人/私人数据,并确定哪些数据资产包含必须符合规范的敏感数据。

智能数据资产目录将传统的元数据管理功能(如业务词汇表,结构化元数据管理,对象元数据和数据血迹)与机器学习和人工智能算法相结合,从人类交互中学习并继续管理数据。做出重大贡献。

3062217-fa87ac4d70f238ed.jpg

有人可能会说,第一代数据治理实践侧重于使组织与基本数据管理原则保持一致,例如记录结构元数据,确保数据质量或实施主数据管理。虽然这些行动策略对于有效的数字转换是必要的,但它们肯定是不够的。仅使用促进遵守被动数据策略的技术和工具的组织将发现可以解决严重的数据问题,但是报告和数据分析有效性的长期障碍将继续存在。这些组织将继续执行根深蒂固的响应式数据管理任务,而其更灵活的竞争对手则是市场上最好的竞争对手。

换句话说,Data Governance 2.0 Era计划正在从构建数据治理组织结构和数据职责演变为更全面的方法来转换业务计划,例如改善客户体验,增加收入,降低成本或将合规性转变为可操作的和可执行的公司信息政策。通过简化数据可访问性,标准化数据语义,支持数据质量方法以及支持数据资产分类以实现数据合规性,这一转变导致了对数据可用性的数据感知方面的关注,更重要的是,加快了报告,商业智能和分析提供正确的数据资产。遵守这些策略需要更灵活的可访问性和全面的监督,以实现和加速自助服务数据的可访问性。

描述支持这些数据治理方面的操作要求表明,传统的元数据管理工具必须通过评估和描述整个企业数据环境中的数据资产的技术进行扩展。这包括评估物理,逻辑和行为元数据的数据发现技术 - 更全面,更智能的信息积累,以增强数据消费者的集体体验。

寻找有助于在不同业务利益相关者(业务消费者,数据分析师和数据管理员)之间进行通信和协作的工具,以确保他们满足所有需求。通过对数据使用施加限制或限制对数据资产元数据的访问,避免使用距离这些用户组太远的工具。相反,拥抱平衡数据控制,准确提供准确数据资产的工具,并且通常可以提高数据意识。

更重要的是,智能数据资产目录使用机器学习和人工智能算法来学习人类交互,以改进自动数据发现,跟踪数据亲缘关系,甚至识别敏感数据主体合规性。更重要的是,智能数据资产目录使用机器学习来了解使用模式,用户请求与所选数据资产之间的相关性,以及基于分类和内容的数据源的用户关联性。将智能集成到数据目录环境有助于自动化运营数据治理的重要方面,并帮助数据用户找到正确的数据源集,以满足他们的报告和分析需求。