企业用户好奇追问我们是如何发现这些数据质量问题的,当时习以为常,没有细想就回答“唯有谨慎认真而已”。但事后想想,除了数据分析师本身对数据更加敏感之外,还是有客观原因让数据分析师能在正统数据管理手段之外发现数据质量问题,同时也存在很多看起来“不值一提”的切入点,对其他数据分析项目都有参考意义。
示例案例
一个具体仪器单元(表InstrumebtUnit)是专用的,属于某个固定的测试台(表TestBed),但与其他测试台的型号(unit_id)可能是相同的,并且一个型号的仪器在一个测试台最多配备1部。测试仪器的型号是分层次,这里假设2个层次(大类和细类)。测试周期数目(表TestTask的cycle字段)是按照测试仪器递增的,但相邻2个测试任务使用的测试仪器可能不同。
检查步骤
如果枚举值不多,可以用 table(<fieldName1>,<fieldName2>) 多个字段建的交叉关系 如果枚举值很多,可以用 aggregate(<fieldName1>~<fieldName2>,data=df, FUN=function(x){length(unique(x))}) | ||