第1个回答 2012-04-19
数据仓库主要是对不完整的、错误的、重复的数据进行清洗,经过清洗的数据就可以在数据仓库的存储层进行存储。对于数据挖掘来讲,数据清洗是数据预处理的一部分,数据挖掘的数据预处理包括数据清理、数据集成、数据变换、数据归约、数据离散化。其中,数据清理的内容要大于等于数据仓库的数据清洗,如果数据挖掘的数据源是从数据仓库, 则在数据清理阶段可以省去对不完整数据、错误数据和重复数据的清理,但像平滑噪声数据,识别并删除孤立点,解决不一致性等还是要在数据清理阶段执行。
也就是说,数据仓库是为所有的分析应用提供数据源支撑,而数据挖掘是分析应用的一种,数据质量高的数据仓库可以让数据挖掘过程省去一部分预处理过程,但是不可能代替