谁能说说数据仓库,数据挖掘,BI三者之间的区别和联系的相关推荐

如题所述

数据仓库:

数据仓库顾名思义,是一个很大的数据存储集合,面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理决策。对多样的业务数据进行筛选与整合。它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库的输入方是不同的数据源,比如:有的数据存在mysql里,有的数据存在mongdb里,还有一些第三方的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。

多数据源通过ETL(Extract-数据抽取;Transform-数据转换;Load-数据加载)集成。

还有数据仓库和数据库的关系,这里在网上找了个图,讲的还是比较清楚的。

面向业务的数据库常称作OLTP,面向分析的数据仓库亦称为OLAP

数据挖掘:

数据挖掘看穿你的需求,广义上说,任何从数据库中挖掘信息的过程都叫做数据挖掘。从这点看来,数据挖掘就是BI。但从技术术语上说,数据挖掘(Data Mining)特指的是:源数据经过清洗和转换等成为适合于挖掘的数据集。数据挖掘在这种具有固定形式的数据集上完成知识的提炼,最后以合适的知识模式用于进一步分析决策工作。从这种狭义的观点上,我们可以定义:数据挖掘是从特定形式的数据集中提炼知识的过程。数据挖掘往往针对特定的数据、特定的问题,选择一种或者多种挖掘算法,找到数据下面隐藏的规律,这些规律往往被用来预测、支持决策。
关联销售案例:
美国的超市有这样的系统:当你采购了一车商品结账时,售货员小姐扫描完了你的产品后,计算机上会显示出一些信息,然后售货员会友好地问你:我们有一种一次性纸杯正在促销,位于F6货架上,您要购买吗?
这句话决不是一般的促销。因为计算机系统早就算好了,如果你的购物车中有餐巾纸、大瓶可乐和沙拉,则86%的可能性你要买一次性纸杯。结果是,你说,啊,谢谢你,我刚才一直没找到纸杯。 这不是什么神奇的科学算命,而是利用数据挖掘中的关联规则算法实现的系统。
每天,新的销售数据会进入挖掘模型,与过去N天的历史数据一起,被挖掘模型处理,得到当前最有价值的关联规则。同样的算法,分析网上书店的销售业绩,计算机可以发现产品之间的关联以及关联的强弱。


BI

经过几年的积累,大部分中大型的企事业单位已经建立了比较完善的CRM、ERP、OA等基础信息化系统。这些系统的统一特点都是:通过业务人员或者用户的操作,最终对数据库进行增加、修改、删除等操作。上述系统可统一称为OLTP(Online Transaction Process,在线事务处理),指的就是系统运行了一段时间以后,必然帮助企事业单位收集大量的历史数据。但是,在数据库中分散、独立存在的大量数据对于业务人员来说,只是一些无法看懂的天书。业务人员所需要的是信息,是他们能够看懂、理解并从中受益的抽象信息。此时,如何把数据转化为信息,使得业务人员(包括管理者)能够充分掌握、利用这些信息,并且辅助决策,就是商业智能(BI)主要解决的问题。

如何把数据库中存在的数据转变为业务人员需要的信息?大部分的答案是报表系统。简单说,报表系统已经可以称作是BI了,它是BI的低端实现。 现在国外的企业,大部分已经进入了中端BI,叫做数据分析。有一些企业已经开始进入高端BI,叫做数据挖掘。而我国的企业,目前大部分还停留在报表阶段。目前国内现在做BI的厂家有很多,比较知名的BI厂家比如:永洪科技,核心产品Yonghong-Z-Suite帮助企业构建大数据应用,也有很丰富的行业积累,政府,电力,能源,金融等等,有兴趣可以自己查些资料。

温馨提示:答案为网友推荐,仅供参考
第1个回答  2021-07-01

准确的来说,商业智能BI不仅仅包含前端可视化分析、报表展现的能力,更包含了底层数据仓库的建设过程。

Gartner 在上世纪九十年代就已经提到了商业智能 Business Intelligence,它更多的认为BI是一种数据类的技术解决方案,将许多来自不同企业业务系统的数据提取有分析价值的数据进行清洗、转换和加载,就是抽取Extraction、转换 Transformation、加载Loading 的ETL过程,最终合并到一个数据仓库中,按照一定的建模方式例如Inmon 的3NF 建模、Kimball 的维度建模或者两者都有的混合式架构模型,最终在这个基础上再利用合适的分析展现工具来形成各种可视化的分析报表为企业的管理决策层提供数据决策支撑。

所以,可以从这里能够看到数据仓库Data Warehouse 的位置是介于可视化报表和底层业务系统数据源之间的这一层,在整个BI项目解决方案中起到的是一个承上启下的作用。所以,BI在前端可视化分析层面要玩出各类精彩的动作,没有数据仓库这个核心力量的支撑是很难做到的。

那大家也会问到,市面上不是有很多直接链接数据源就可以拖拉拽分析的BI工具产品吗,不也一样可以做BI分析报表吗?这种独立的、单独的面向前端的BI分析工具,他们更多的定位是部门级和个人级的BI 分析工具,对于深层次的需要复杂数据处理、集成、建模等很多场景是无法解决的。最好的方式就是底层构建一套完整的数据仓库,把很多分析模型标准化,再利用这些前端BI分析工具结合起来,这样才能真正的把前端BI分析能力给释放出来。

很多企业认为只要买一个前端BI分析工具就可以解决企业级的BI所有问题,这个看法实际上也不可行的。可能在最开始分析场景相对简单,对接数据的复杂度不是很高的情况下这类BI分析工具没有问题。但是在企业的BI项目建设有一个特点,是一个螺旋式上升的建设过程。因为对接的业务系统可能会越来越多,分析的深度和广度会越来越多,数据的复杂度也会越来越有挑战性,这个时候没有一个很好的数据仓库架构支撑,光靠前端BI分析工具基本上是无法搞定的。

所以在企业中,我们需要明确我们的BI建设是面向企业级的还是个人和部门的分析工作。如果是个人数据分析师,使用这类前端BI分析工具就足够了。如果是需要构建一个企业级的BI项目,就不能只关注前端可视化分析能力这个层面,更应该关注到底层数据架构的构建,也就是数据仓库这个层面。

数据挖掘:

数据挖掘看穿你的需求,广义上说,任何从数据库中挖掘信息的过程都叫做数据挖掘。从这点看来,数据挖掘就是BI。但从技术术语上说,数据挖掘(Data Mining)特指的是:源数据经过清洗和转换等成为适合于挖掘的数据集。数据挖掘在这种具有固定形式的数据集上完成知识的提炼,最后以合适的知识模式用于进一步分析决策工作。从这种狭义的观点上,我们可以定义:数据挖掘是从特定形式的数据集中提炼知识的过程。数据挖掘往往针对特定的数据、特定的问题,选择一种或者多种挖掘算法,找到数据下面隐藏的规律,这些规律往往被用来预测、支持决策。

第2个回答  2022-12-19
数据仓库顾名思义,是一个很大的数据存储集合,面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理决策。对多样的业务数据进行筛选与整合。它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。数据仓库的输入方是不同的数据源,比如:有的数据存在mysql里,有的数据存在mongdb里,还有一些第三方的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。多数据源通过ETL(Extract-数据抽取;Transform-数据转换;Load-数据加载)集成。还有数据仓库和数据库的关系,这里在网上找了个图,讲的还是比较清楚的。面向业务的数据库常称作OLTP,面向分析的数据仓库亦称为OLAP。数据挖掘:数据挖掘看穿你的需求,广义上说,任何从数据库中挖掘信息的过程都叫做数据挖掘。从这点看来,数据挖掘就是BI。但从技术术语上说,数据挖掘(Data Mining)特指的是:源数据经过清洗和转换等成为适合于挖掘的数据集。数据挖掘在这种具有固定形式的数据集上完成知识的提炼,最后以合适的知识模式用于进一步分析决策工作。从这种狭义的观点上,我们可以定义:数据挖掘是从特定形式的数据集中提炼知识的过程。数据挖掘往往针对特定的数据、特定的问题,选择一种或者多种挖掘算法,找到数据下面隐藏的规律,这些规律往往被用来预测、支持决策。BI,经过几年的积累,大部分中大型的企事业单位已经建立了比较完善的CRM、ERP、OA等基础信息化系统。这些系统的统一特点都是:通过业务人员或者用户的操作,最终对数据库进行增加、修改、删除等操作。上述系统可统一称为OLTP(Online Transaction Process,在线事务处理),指的就是系统运行了一段时间以后,必然帮助企事业单位收集大量的历史数据。但是,在数据库中分散、独立存在的大量数据对于业务人员来说,只是一些无法看懂的天书。业务人员所需要的是信息,是他们能够看懂、理解并从中受益的抽象信息。此时,如何把数据转化为信息,使得业务人员(包括管理者)能够充分掌握、利用这些信息,并且辅助决策,就是商业智能(BI)主要解决的问题。
第3个回答  推荐于2017-11-27
数据仓库(DW)属于BI的一部分,一般来说DW就是BI这个房子的地基了. 做好DW才好进而分析利用,让数据产生价值. DW没做好,整个BI项目很容易垮掉.
BI包括ETL, DW和相应的Reporting System. 因为现在一般的公司动不动说上个BI系统,都是要从DW建模开始做,然后做ETL,最后做对应的Reporting System. 虽然最终领导们只看到了他们想要的报表,但是这一套系统是需要DW和ETL的支持的。
数据挖掘(DM)是一门新兴的技术,在BI 中会常用到数据挖掘的技术。数据挖掘涉及到的是数据库、统计学、机器学习、数据分析、可视化等等。
三者之间紧密联系,但是属于三个不同的概念范畴。本回答被提问者和网友采纳