Data quality & reconciliation with exception
2026-03-28
新闻来源:网淘吧
围观:17
电脑广告
手机广告
数据质量与核对,包含异常报告且无静默失败
目的
使用稳定的标识符(薪资编号、驾照、驾驶员卡和驾驶员资格证号码)核对数据源,生成异常报告并进行“无静默失败”检查。
使用时机
- 触发条件:
- 核对这两个数据源,并生成带有原因的异常报告。
- 跨文件匹配姓名和薪资编号,并标记任何无法匹配的项。
- 构建一个“无静默失败”检查,如果计数不匹配则停止流程。
- 创建关于缺失记录、重复项和日期间隔的每周差异报告。
- 设计包含阈值和警示标志的数据质量评分卡。
- 不适用于以下情况…
- 您需要进行无验收标准的开放式模糊匹配。
- 任何数据源中均无稳定的标识符。
输入
- 必需:
- 至少两个包含薪资编号和/或驾驶员证件号码的数据集(CSV/XLSX格式)。
- 哪些字段必须匹配(例如,姓名、有效期)。
- 可选:
- 标准化规则(大小写、空格、标点符号)。
- 门限/记分卡阈值(最大缺失百分比等)。
- 示例:
- 工资单导出 + 合规登记
- 来自不同系统的每周两次导出
输出
- 对账计划(匹配规则、标准化、连接策略)。
- 例外报告规范(CSV列 + 原因代码)及差异检查。
- 可选产出物:
assets/exceptions-report-template.csv+references/matching-rules.md. 成功标准 = 每条记录都有明确的分类(匹配/缺失/重复/不匹配/无效)并附有明确原因;管道在发现异常时停止。
工作流程
- 确认数据源和关键优先级(工资编号 → 驾驶员卡 → 驾驶执照 → DQC)。
- 标准化列:
- 去除空格;统一大小写;为证件号去除常见标点符号。
- 验证密钥:
- 标记空白/无效格式;识别每个来源的重复项。
- 连接:
- 首先按支付号码进行精确连接;然后仅对剩余未匹配项尝试二次连接。
- 生成包含原因的异常类别:
- 在A/B中缺失、重复密钥、字段不匹配、无效密钥。
- “无静默失败”检查点:
- 数量在容忍范围内;未匹配率低于阈值;重复项激增被标记。
- 如果出现以下情况,请停止并询问用户:
- 列未映射,
- 存在多个竞争ID且无优先级,
- 未指定预期容忍度。
输出格式
exception_type,reason,source_a_id,source_b_id,pay_number,name,field,source_a_value,source_b_value
原因代码:在A中缺失,在B中缺失,不匹配,重复密钥,无效密钥.
安全性与边界情况
- 默认只读;不自动编辑源数据。将异常情况路由至审核。
- 优先使用确定性匹配规则;除非明确要求,避免模糊匹配。
- 始终生成异常报告;绝不丢弃未匹配的行。
示例
-
输入:“薪资与合规性核对;按薪资编号匹配;标记姓名不匹配。”
输出:连接方案 + 不匹配原因 + 异常报告架构。 -
输入:“部分行薪资编号为空白。”
输出:次级关键匹配 + 针对无法匹配行的无效密钥异常。
文章底部电脑广告
手机广告位-内容正文底部
上一篇:Agent Browser
下一篇:Homeassistant Skill


微信扫一扫,打赏作者吧~