数据仓库的数据清理与数据挖掘的数据清理有什么不同?

如题所述

数据仓库主要是对不完整的、错误的、重复的数据进行清洗,经过清洗的数据就可以在数据仓库的存储层进行存储。对于数据挖掘来讲,数据清洗是数据预处理的一部分,数据挖掘的数据预处理包括数据清理、数据集成、数据变换、数据归约、数据离散化。其中,数据清理的内容要大于等于数据仓库的数据清洗,如果数据挖掘的数据源是从数据仓库, 则在数据清理阶段可以省去对不完整数据、错误数据和重复数据的清理,但像平滑噪声数据,识别并删除孤立点,解决不一致性等还是要在数据清理阶段执行。
也就是说,数据仓库是为所有的分析应用提供数据源支撑,而数据挖掘是分析应用的一种,数据质量高的数据仓库可以让数据挖掘过程省去一部分预处理过程,但是不可能代替。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2012-04-19
数据仓库主要是对不完整的、错误的、重复的数据进行清洗,经过清洗的数据就可以在数据仓库的存储层进行存储。对于数据挖掘来讲,数据清洗是数据预处理的一部分,数据挖掘的数据预处理包括数据清理、数据集成、数据变换、数据归约、数据离散化。其中,数据清理的内容要大于等于数据仓库的数据清洗,如果数据挖掘的数据源是从数据仓库, 则在数据清理阶段可以省去对不完整数据、错误数据和重复数据的清理,但像平滑噪声数据,识别并删除孤立点,解决不一致性等还是要在数据清理阶段执行。
也就是说,数据仓库是为所有的分析应用提供数据源支撑,而数据挖掘是分析应用的一种,数据质量高的数据仓库可以让数据挖掘过程省去一部分预处理过程,但是不可能代替
第2个回答  2011-10-27
有重叠
数据仓库做的数据清理数据挖掘也要做
但是数据挖掘做的数据清理数据仓库未必会做
数据挖掘考虑的内容多点,比如在数据仓库中抽取了宽表出来,发现还存在孤立点,还有属性空,这时候就可能就会剔除了,主要考虑数据的准确性以及对模型的适应性,目的是高质量的模型
而数据仓库无非是要得到高质量的数据