百分点大数据技术团队：数据整治“PAI”实施方法论

发布时间：2023-02-15 12:47:37 所属栏目：大数据来源：互联网

导读：数据作为第五大生产要素，已逐渐成为政府和企业决策的重要手段与依据。面对数据多样化、数据需求个性化、数据应用智能化的需求，以及在2B和2G行业中数据质量参差不齐、数据应用难以发挥价值、数据资产难以沉淀等问题，如何做好数据治理工作、提升数据治理能

　　数据作为第五大生产要素，已逐渐成为政府和企业决策的重要手段与依据。面对数据多样化、数据需求个性化、数据应用智能化的需求，以及在2B和2G行业中数据质量参差不齐、数据应用难以发挥价值、数据资产难以沉淀等问题，如何做好数据治理工作、提升数据治理能力成为了政府和企业数字化转型的重中之重。百分点大数据技术团队基于多年的数据治理项目经验，总结了一套做好数据治理工作及提升数据治理能力的实施方法论。

　　四大能力建设：

　　聚：数据汇聚能力，面对数据来源各异，数据类型纷繁多样，数据时效要求不一等各类情况，数据治理首先能把各类数据接入到平台中，“进的来”是第一步。

　　治：狭义数据治理能力，包括数据标准、数据质量、元数据、数据安全、数据生命周期、主数据。核心是保证数据标准的统一、借助元数据掌握数据资产分布情况及影响分析和血缘关系、数据质量地持续提升、数据资产的安全可靠、数据资产的淘汰销毁机制以及核心主数据的统一及使用。

　　通：数据拉通整合能力，原始业务数据分散在各业务系统中，数据组织是以满足业务流转为前提。后续数据需求是根据实际业务对象开展而非各业务系统，所以需要根据业务实体重新组织数据。比如政府单位针对人的综合分析通常会涉及：财产、教育程度、五险一金、缴税、家庭成员等，需要以身份证号拉通房管局、交通局、教育局、人社局、税务局、卫健委等多个委办局数据。数据拉通整合能力是后续满足多样化需求分析的基础，是数据资产积累沉淀的根基，也是平台建设的另一个重点。

　　结合数据治理项目实际落地实施过程以四大能力构建、PDCA实施指导思想提出了“PAI”实施方法论，即流程化（process-oriented）、自动化（automation）、智能化（intelligence）三化论，以逐步递进方式不断提升数据治理能力，为政府和企业后续的数据赋能业务及数据催生业务创新打下坚实基础。流程化将数据治理项目执行过程进行流程化梳理，同时规范流程节点中的标准输入输出，并将标准输入输出模板化。另外对各流程节点的重点注意事项进行提示。自动化针对流程化之后的相关节点及标准输入输出进行自动化开发，减轻人力负担，让大家将精力放在业务层面及新技术拓展上，避免重复人力工作。如自动化数据接入及自动化脚本开发等。智能化针对新项目或是新领域结合历史项目经验及沉淀给出推荐内容，比如模型创建、数据质量稽核规则等。

　　一、数据治理流程化

　　因数据治理类项目通常采用瀑布式开发模式，核心流程包含：需求、设计、开发、测试、上线等阶段，流程化是将交付流程步骤进行详细分解并对项目组及客户工作内容进行提炼及规范，明确每个流程的标准输入、输出内容。流程节点、节点产出物及数据治理平台四大能力对应关系如下所示：

　　1. 需求调研

　　1.1 需求调研流程

　　数据调研是整个项目的基础，既要详细掌握现有业务现状及数据情况又要准确获取客户需求，明确项目建设目标。如上图所示总体分成三个大的时间节点：包括需求调研准备、需求调研实施及需求调研后期的梳理确认。需求调研准备包括：调研计划确定、调研前准备，具备条件的尽量开一次调研需求见面会（项目启动会介绍过的可以不需要再组织）。其中调研前准备需针对客户的组织架构及业务情况进行充分的了解，以便在后续的调研实施阶段有的放矢，调研内容更为详实，客户需求把控更为准确。调研实施阶段一般组织两轮调研，第一论主要是了解业务运转现状、对接业务数据以及客户需求。第二轮针对具体的业务和数据的细节问题进行确认，及分析后的客户需求与客户确认。对于部分系统的细节问题以线下方式对接，不再做第三轮整体调研。需求调研后期主要是针对客户需求及客户业务及数据现状进行内外部评审并确认签字，以《需求规格说明书》形式明确本期项目建设目录。

　　1.2 需求调研工作事项

　　上表描述了需求调研过程关键节点的客户方及项目组工作内容内容及输入输出，并说明了需求调研阶段的总体原则、调研方式及相关要求。

　　1.3 需求调研注意事项

　　（1）需求收集

　　· 关键干系人需求

　　· 真正用户是谁及其需求

　　· 需求获取前置问题：客户管什么，重点关注什么，目前如何管理，欠缺什么，重复劳动有哪些？

　　（2）需求验证

　　· 3W验证，谁来用，什么场景下用，解决哪些问题？

　　· 原型草图

　　2. 概要设计

　　数据治理项目概要设计主要涵盖网络架构、数据流架构、标准库建设、数据仓库建设四部分内容。总体目标是明确数据如何进出数据治理平台（明确网络情况）、数据在平台内部如何组织及流动（数据流架构及数据仓库模型）以及数据在平台内部应遵循哪些标准及规范（标准库）。针对每部分具体工作事项及输入、输出如下所示：

　　2.1 网络架构示意图

　　网络架构要明确硬件部署方案、待接入系统网络情况及后续使用人群及访问系统方式，以便满足数据接入及数据服务需求。

　　2.2 数据流示意图

　　数据流架构要明确各类数据的处理方式及流向，以便确认后续数据加工及存储方式。

　　2.3 数据仓库主题域及核心实体示意图

　　数据仓库建设要明确主题域及关键实体，明确后续数据拉通整合的实体对象，以更好地支撑繁杂多变的数据需求。

　　二、数据治理自动化

　　在将数据治理项目流程化以后整个工作内容及具体工作产出已经比较明确了，但是会发现流程中会涉及到大量的开发工作，同时发现很多工作具有较高的重复性或相似性，开发使用的流程及技术都是一样的只是配置不同，因此针对流程化以后各节点的自动化开发应运而生。通过配置任务的个性化部分，然后统一生成对应的开发任务或脚本即可完成开发。自动化处理一般有两种实现路径，其一是采购成熟数据治理软件，其二是自研开发相应工具。其中数据治理过程中可实现自动化处理的流程节点如“工序”标蓝色部分：

　　1. 批量数据接入数据接入是所有数据治理平台的第一步，批量数据接入占数据接入工作量的70-90%之间。自动化处理即将任务个性化部分进行抽象化形成配置项，通过配置任务的抽象化配置项，进而生成对应的任务。批量数据接入抽象以后的配置项如下：

　　· 源系统：源系统数据库类型

　　· 源库名：源系统数据库库名称（数据库的链接方式在其他地方统一管理）

　　示例配置如上，不管使用sqoop、datax等方式都可以批量生成对应命令或配置文件，实现批量生成接入作业，实现自动化数据接入工作，数据接入效率提升75%以上，后续只需验证数据接入正确性即可。

　　2. 脚本开发

　　资源库、主题库的加工脚本占整体开发工作工作的50%-80%，同时经过对此部分数据加工方式进行特定分析后，数据常用的处理方式如下一般有以下几种类型：

　　将以上加工方式进行总结后可沉淀出以下几种数据处理方式：

　　结合Mapping文档选定以上数据处理方式的一种即可自动生成资源库或主题库对应脚本，开发效率得到大幅度提升，整体效率提升60%以上（模型及Mapping设计尚需人工处理）。

　　三、数据治理智能化

　　经过自动化阶段以后数据治理流程中数据仓库模型设计、Mapping映射等阶段依旧有非常多人工处理工作，这些工作大部分跟业务领域知识及实际数据情况强相关，依赖专业的业务知识和行业经验才可进行合理地规划和设计。如何快速精通行业知识和提升行业经验是数据治理过程中新的“拦路虎”。如何更好地沉淀和积累行业知识，自动地提供设计和处理的建议是数据治理“深水区”面临的一个新的挑战。数据治理智能化将为我们的数据治理工作开辟一个 “新天地”。在整个数据治理流程中智能化可以发挥作用的的节点如“工序”标红色部分：

　　实现智能化的第一步是如何积累业务知识及行业经验，形成知识库。数据治理知识库应包括：标准文件、模型（数据元）、DQC规则及数据清洗方案、脚本数据处理算法、指标库、业务知识问答库等，具体涵盖内容及总体流程如下图所示：

　　1. 标准文件

　　在2B和2G行业尤其是2G行业，国家、行业、地方都发布了大量的标准文件，在业务和技术层面都进行了相关约束，并且指导新建业务系统的开发。标准文件知识库涵盖几个方面：a.国标、行标、地标等标准的在线查看 b.相关标准的在线全文检索 c.标准具体内容的结构化解析。

　　2. 数据元（模型）

　　对于不同行业来说技术标准中的命名以及模型是目前大家都比较关注的，也是在做数据中台类项目以及数据治理项目比较耗时的地方，在金融领域已经比较稳定的主题模型在其他行业尚未形成统一，所以对于做2B和2G市场的企业如何能沉淀出特定行业的数据元标准甚至是主题模型，对于行业理解及后续同类项目交付就至关重要。具体包括：实体分类、实体名称名称、中文名称、英文名称、数据类型、引用标准等。

　　3. DQC（数据质量稽核）&数据清洗方案

　　数据治理的关键点是提升数据治理，所以不同行业及各个行业通用的数据质量清洗方案及数据质量稽核的沉淀就尤为重要，比如通用规则校验身份证号18位校验（15转18）、手机号为11位（如有国际电话需加国家代码）、日期格式、邮箱格式等。

（编辑：甘南站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页