字段缺失问题
字段缺失一般是指关键字段的缺失,关键字段可能是主键、主要属性、必填项等。字段缺失产生的几种原因及解决办法如下。
- 数据产生环境中没有设计该字段。如“社会统一信用代码”在很多系统设计时还没有要求,但是系统建设完成后才发现该字段的重要性。对于这种情况,一般都通过完善或升级系统的方式来补全字段:对于系统新生成数据,该字段作为必填项;对于系统存留数据,需要重新填报或者寻找第三方数据补全,这里会用到数据的比对和关联,可以依照其它关联字段作为关联依据来补全历史数据。
- 在数据源头对该字段做了屏蔽处理。在数据交换、共享、开放等场景下,数据源头可能对一些敏感字段做了屏蔽处理,这种情况下需要人为协调来处理。
- 数据流转过程中的操作失误造成字段遗失。在数据的使用、流转过程中,如系统升级、人为操作等造成数据字段遗失,如果不能通过技术手段恢复数据,也会造成字段缺失。这种情况的字段遗失,要根据具体情况来寻找数据恢复办法,入从数据源重新调用、根据字段特征补全等,具体补全的方法在“数据规范性问题及解决办法”中会详细说明。
【处理步骤】
- 业务分析,对缺失字段做分析,确认是必填项还是选填项。
- 对于必填项字段,梳理数据元标准,建立缺失字段处理规范。
- 依据缺失字段处理规范和字段关联特征、数据来源等,建立处理机制。
- 对于具有业务性的个别缺失字段,需要人工填写;对于分析场景下的缺失内容填充,通过相似填充、统计填充、分析填充等方法来填写近似值;对于具有关联性字段的缺失字段,通过关联字段来寻找第三方数据表中的对应字段进行填充。
- 填充完成后,进行数据检测,对填充后的字段做规范化处理。
值缺失问题
值缺失是指在数据表中可以看到该字段的存在,但是该字段对应的数据值不可见或者全部为空。值缺失的产生原因与字段缺失大体一致,可参照字段缺失的解决办法。
【处理步骤】
- 业务分析,对缺失值做分析,确认是必填项还是选填项。
- 对于必填项字段,梳理数据元标准,建立缺失字段处理规范。
- 依据缺失字段处理规范和字段关联特征、数据来源等,建立处理机制。
- 对于具有业务性的个别缺失值,需要人工填写;对于分析场景下的缺失内容填充,通过相似填充、统计填充、分析填充等方法来填写近似值;对于具有关联性字段的缺失值,通过关联字段来寻找第三方数据表中的对应字段进行填充。
- 填充完成后,进行数据检测,对填充后的值做规范化处理。
业务数据真实性问题
业务数据真实性用于度量哪些数据和信息是不正确的。在符合数据规范的前提下,有些数据值存在逻辑或常识性错误。对于不符合准确性的问题,要具体问题具体分析,从业务上来讲,通常是采用重新采集、录入、与其它数据比对的方式来修改;从技术上来讲,可以通过数据方式进行近似或模拟,详细方法可参照升级数据质量处理算法。
- 值错误可能是在数据录入、数据采集过程中输入错误产生的。比如数据录入的比较随意或者没有按照实际情况进行填报。
- 值异常(噪声值)是指在满足数据规范性的前提下,不符合常识或者实际情况的数据值。噪声值大多出现在数值型字段中,可以通过数学方式来发现,发现后可以通过降噪等数据算法来处理。对于有业务要求的,可以按照业务规范进行修改。
- 相关性错误存在于具有关联性的字段之间,有些字段之间具有一定的相关性,如身份证号和生日、年龄、性别等具有相关性,可以作为相互之间的验证。对于相关性错误,需要具有业务基础或标准规范,并通过标准规范来做字段关联关系的约束进行检测和发现。
- 格式异常,格式异常的情况如字段与字段值对应错位。参见上一章节字段移位调整。
【处理步骤】
- 数据检测,识别可能出现的真实性错误,数据检测包括数据的物理检测和逻辑检测两部分。物理检测是指字段存在的格式、值域、字典等错误,逻辑检测是指多个字段间存在的相互推导、关联等关系。
- 问题分析,分析数据真实性问题。
- 问题整理,对真实性问题进行分类,并整理出对应解决策略。
- 问题处理,选择对应的解决策略,处理数据真实性问题。
- 处理完成后,检测是否符合相关规范。
业务记录重复问题
- 记录完全重复是指存在两条或以上的记录,其中的各个字段(包括ID等)的值均相同。对于完全重复的记录,只保留其中一条即可。
- 关联字段值重复。两条或以上记录中,其中要求唯一的字段存在重复,其它字段值存在不同。产生这种情况的原因可能是数据合并、数据更新等情况下没有完全按照字段唯一性的要求进行处理。处理唯一字段值重复的情况,可通过如下几种方法:选择辅助字段,以辅助字段作为标准,保留辅助字段符合标准的记录。根据数据源,保留来自某个数据源的记录。
- 字段重复。字段重复是指两个或两个以上的字段内容重复。对于字段重复的情况,保留其中一个字段即可。
- 记录相似。多条记录的关联字段不重复,但是大量的辅助字段重复。大量辅助字段的重复导致对象(如法人、自然人)的特点模糊,不能识别出主要特征。记录相似可能是数据填报时由于乱填报、批量填报等原因产生的,很多非关键属性在填报时没有做具体要求,导致数据后续无法正常使用。
【处理步骤】
- 通过数据检测,发现可能存在的重复、相似等问题。重复包括记录重复、字段重复等。
- 针对出现的问题进行分析,分析问题可能产生的原因和造成的影响。
- 问题解决方案,根据不同的问题选择对应的解决方案。
- 问题处理,设置处理规则和机器,需要人工确认的由业务专家人工确认,需要机器处理的由工具来处理。
- 数据检测,对处理后的数据做进一步检测和分析。
拆分字段问题
在数据采集或汇聚的过程中,在没有统一的字段要求的情况,填报的信息可能存在内容过多或多个属性揉杂在一起的情况,为了更好的建立数据属性维度,需要对这类复杂字段进行拆分处理。
针对一下拆分字段场景,可以选择不同的方法进行拆分处理:
- 采集的数据字段包含了过多的内容,不符合表标准。这种情况下,需要根据表标准分析字段结构,设置拆分规则,如按字段长度拆分、按统一识别码拆分、按特殊字符拆分等。
- 数据合并时存在字段不统一的情况,可通过对部分字段拆分达成统一。这种情况下,按标准表规范进行拆分。
- 当前字段不能直接进行数据统计、分析的。这种情况,按照统计要求和指标进行拆分。
- 用于数据关联的关键信息存在于未拆分字段中。这种情况下,识别出关键关联信息,定义相应的拆分规则。 针对上述场景,基于数据规范性要求,对数据做拆分合并加工。
【处理步骤】
- 定义拆分规则,对于不同的业务场景,拆分规则不同。
- 识别拆分标识字符,建立对应的拆分机制,为机器处理提供规范。对于机器不能处理的,需要制定人工操作方式。
- 新建相应字段,拆分出来的新字段储存在新建字段中。
- 对新建字段进行检测和规范化处理,并建立数据元关联。