数据质量是保证数据应用的基本,它的评估标准首要包括四个方面,完整性、共同性、精确性、及时性。评估数据是否抵达预期设定的质量要求,就可以通过这四个方面来进行判别。
完整性
完整性指的是数据信息是否存在缺失的情况,数据缺失的情况可能是整个数据记载缺失,也可能是数据中某个字段信息的记载缺失。不完整的数据所能学习的价值就会大大下降,也是数据质量最为基本的一项评估标准。站群服务器
数据质量的完整性比较简单去评估,一般我们可以通过数据计算中的记载值和仅有值进行评估。例如,网站日志日访问量就是一个记载值,往常的日访问量在 1000 左右,突然某一天降到100了,需求查看一下数据是否存在缺失了。再例如,网站计算地域分布情况的每一个区域名就是一个仅有值,我国包括了32个省和直辖 市,如果计算得到的仅有值小于32,则可以判别数据有可能存在缺失。
共同性
共同性是指数据是否遵从了共同的标准,数据集结是否坚持了共同的格式。
数据质量的共同性首要体现在数据记载的标准和数据是否符合逻辑。标准指的是,一项数据存在它特定的格式,例如手机号码必定是13位的数字,IP地址必定 是由 4个0到255间的数字加上”.”组成的。逻辑指的是,多项数据间存在着固定的逻辑关系,例如PV必定是大于等于UV的,跳出率必定是在0到1之间的。
一般的数据都有着标准的编码规矩,关于数据记载的共同性查验是较为简单的,只需符合标准编码规矩即可,例如区域类的标准编码格式为“北京”而不是“北京市”,我们只需将相应的仅有值映射到标准的仅有值上就可以了。
精确性
精确性是指数据记载的信息是否存在失常或差错。和共同性不一样,存在精确性问题的数据不只是只是规矩上的不共同。最为常见的数据精确性差错就如乱码。其次,失常的大或许小的数据也是不符合条件的数据。
数据质量的精确性可能存在于单个记载,也可能存在于整个数据集,例如数量级记载差错。这类差错则可以运用最大值和最小值的计算量去审理。
一般数据都符合正态分布的规矩,如果一些占比少的数据存在问题,则可以通过比较其他数量少的数据比例,来做出判别。高防服务器
当然如果计算的数据失常并不明显,但仍然存在着差错,这类值的查看是最为困难的,需求通过凌乱的计算分析对比找到蛛丝马迹,这儿可以凭仗一些数据分析东西,那么具体的数据修改方法就不在这儿介绍了。
及时性
及时性是指数据从发作到可以查看的时间间隔,也叫数据的延时时长。及时性关于数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了学习意义。