大数据预处理的方法

噪声数据是指数据中存在着错误或异常(偏离期望值)的数据,不完整数据是指感兴趣的属性没有值,而不一致数据则是指数据内涵出现不一致情况(例如,作为关键字的同一部门编码出现不同值)。

数据清洗是指消除数据中存在的噪声及纠正其不一致的错误,数据集成是指将来自多个数据源的数据合并到一起构成一个完整的数据集,数据转换是指将一种格式的数据转换为另一种格式的数据,数据消减是指通过删除冗余特征或聚类消除多余数据。 不完整、有噪声和不一致对大数据来讲是非常普遍的情况。不完整数据的产生有多种原因。

推荐阅读更多精彩内容