谈谈12个最常见的数据质量问题与来源
发布时间:2023-02-16 10:12:19 所属栏目:大数据 来源:互联网
导读:据调查,56%的组织面临至少四种不同类型的数据质量问题,而71%的组织面临至少三种不同类型的问题。组织在设计数据质量框架和解决数据质量问题时花费了大量时间和资源。但要获得良好的结果,了解这些问题的确切性质并首先确定它们如何最终出现在系统中是很重
据调查,56%的组织面临至少四种不同类型的数据质量问题,而71%的组织面临至少三种不同类型的问题。组织在设计数据质量框架和解决数据质量问题时花费了大量时间和资源。但要获得良好的结果,了解这些问题的确切性质并首先确定它们如何最终出现在系统中是很重要的。![]() 问题#01:缺乏记录唯一性 一个拥有200-500名员工的普通组织使用大约123个SaaS应用程序。用于捕获、管理、存储和使用数据的应用程序数量庞大且种类繁多,是导致数据质量差的主要原因。在这种情况下最常见的问题是为同一实体存储多个记录。 例如,客户在购买过程中与品牌进行的所有互动都记录在数据库中的某个位置。这些记录可能来自网站、登陆页面表格、社交媒体广告、销售记录、账单记录、营销记录、购买点记录等领域。如果没有系统的方法来识别客户身份并将新信息与现有信息合并,最终可能会在整个数据集中出现重复信息。要修复重复,必须运行高级数据匹配算法来比较两个或多个记录并计算它们属于同一实体的可能性。 问题#02:缺乏关系约束 以这种情况为例:客户门户包含今年赢得的新业务以及从去年升级的现有客户的记录。除了基本客户信息外,肯定有一些客户字段仅适用于NewBusiness和一些仅适用于NewCustomer。可以使用相同的通用数据模型处理这两种情况,但它可能会导致许多数据质量问题,例如缺少必要的信息,以及客户记录中的模糊或不正确的信息。 要处理此类情况,应该始终创建特定的数据模型并加强它们之间的关系。通过在实体之间强制执行父/子(超类型/子类型)关系,可以使处理此信息的人员更好地捕获、更新和理解数据。需要将基本Customer字段与其子子类型(即NewBusiness和ExistingCustomer)分开。 问题#03:缺乏参照完整性 参照完整性意味着数据记录与其引用对应物是真实的。要了解由于缺乏参照完整性而产生的问题,我们考虑一家零售公司的例子。一家零售公司可能将他们的销售记录存储在Sales表中,每条记录都提到在进行销售时售出的产品。因此,可能希望在Sales表中找到销售ID和产品ID。但是,如果Sales记录引用Product表中不存在的ProductID,则很明显数据集缺乏引用完整性。 这些问题可能会导致团队创建不正确的报告、运送不正确的产品或将产品运送给不存在的客户等等。 问题#04:缺乏关系基数 关系基数是指两个实体之间可以拥有的最大关系数。通常,可以在数据对象之间创建不同类型的关系,这取决于公司允许如何进行业务。 问题#05:缺乏属性的唯一性和意义 我们经常发现与数据集属性或列相关的问题。很多时候数据模型没有明确定义,因此结果信息被认为是不可用的。发现的常见问题有: 存在具有相同名称的多个列,其中包含一条记录的不同信息。 存在具有不同名称的多个列,这在技术上意味着相同的事物,因此存储相同的信息。 列标题不明确,会使数据输入操作者混淆要在列中存储的内容。 问题#06:缺乏验证约束 大多数数据质量问题都是由于缺乏验证约束造成的。验证约束确保数据值有效且合理,并根据定义的要求进行标准化和格式化。例如,缺少对CustomerName的验证约束检查会导致以下错误: 名称中的额外空格(前导、尾随或中间的双空格), 使用不适当的符号和字符, 名称的长度太长, 单字母中间名不大写或不以句号结尾, 名字、中间名和姓氏的所有字母都大写,而不是仅将第一个字母大写。 此外,某些字段可能包含不正确的缩写和代码,或其他不属于属性域的值。如果这些约束未在数据模型中定义并在数据入口点上强制执行,最终会在数据集最关键和最基本的字段(例如客户姓名)中出现大量验证错误。 问题#07:缺乏准确的公式和计算 数据集中的许多字段是从其他字段派生或计算得出的。因此,每次在相关字段中输入或更新新数据时,都会设计、实施并自动执行公式。公式或计算中存在的任何错误都可能导致数据集的整个列中获得不正确的信息。这会使用于任何预期目的的字段无效。 根据其他字段计算的字段示例包括根据生日计算的年龄、根据购买的产品数量计算的适用折扣或任何其他百分比计算。 问题#08:跨来源缺乏一致性 与数据相关的最常见挑战之一是在所有节点或数据源中维护关于同一“事物”的一个定义。例如,如果一家公司使用CRM和一个单独的计费应用程序,则客户的记录将出现在这两个应用程序的数据库中。随着时间的推移,在所有数据库中保持一致的客户信息视图是一项艰巨的任务。 缺乏一致性可能会扰乱企业所有职能和运营的报告。一致性不仅与数据值的含义有关,还与它们的表示有关;例如,当值不适用或不可用时,必须使用一致的术语来表示所有来源的数据不可用。 问题#09:缺乏数据素养技能 尽管为保护数据及其跨数据集的质量做出了所有正确的努力,但组织中缺乏数据素养技能仍然会对数据造成很大的损害。员工经常存储错误的信息,因为他们不理解某些属性的含义。此外,他们不知道自己行为的后果,例如在某个系统或某个记录中更新数据会产生什么影响。 这种差异只能通过创建和设计数据素养计划和课程来消除,这些计划和课程向团队介绍组织数据并 错误输入或拼写错误是最常见的数据质量错误来源之一。众所周知,人类在输入10,000个数据时至少会犯400个错误。这表明即使存在唯一标识符、验证检查和完整性约束,人为错误仍有可能产生并使数据质量下降。 (编辑:甘南站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |