Appearance
数据治理
核心概念
数据治理(Data Governance)是对数据资产进行统一管理的机制,确保数据准确、一致、可信。
数据标准化
命名规范
表名:[主题域]_[实体]_[类型]
例:sales_order_detail(销售-订单-明细)
字段名:[实体简称]_[属性名]_[类型后缀]
例:cust_register_dt(客户注册日期)数据类型规范
| 数据类型 | 规范 |
|---|---|
| 日期 | DATE(YYYY-MM-DD) |
| 时间戳 | DATETIME 或 BIGINT(Unix ms) |
| 金额 | DECIMAL(18,2),单位:元 |
| 比率 | DECIMAL(10,4),如 0.1234 |
| 状态码 | TINYINT + 数据字典 |
主数据管理(MDM)
主数据(Master Data):客户、产品、员工、组织等核心实体,跨系统共享。
| 问题 | 解决方案 |
|---|---|
| 同一客户在不同系统有不同ID | 建立 Golden Record,统一 Master ID |
| 产品名称不统一 | 标准产品目录,系统映射到标准码 |
| 地区编码不一致 | 统一行政区划标准(GB/T 2260) |
数据质量维度
| 维度 | 定义 | 检测方法 |
|---|---|---|
| 完整性 | 必填字段不为空 | NULL 检查 |
| 准确性 | 值在合理范围内 | 范围校验、枚举校验 |
| 一致性 | 跨系统数据对得上 | 跨库比对 |
| 及时性 | 数据更新是否滞后 | 时间戳监控 |
| 唯一性 | 主键无重复 | 唯一键约束 |
数据目录(Data Catalog)
元数据管理工具,记录每张表/字段的:
- 业务含义
- 负责人
- 数据来源
- 更新频率
- 下游依赖
工具:Apache Atlas / Datahub / Amundsen