导航:首页 > 数据处理 > 为什么数据挖掘

为什么数据挖掘

发布时间:2022-12-22 09:13:21

⑴ 请通俗的讲一下什么是数据挖掘

利用数据挖掘,我们还可以做非常多的事情。

1.发现数据项之间的相关性

比如我们拿到各个城市环境、人口、交通等数据,就可以通过相关性分析来看人均汽车保有量,和空气质量各个指标之间的关系,从而定量化地帮助制定产业经济和环保政策。比如要不要进行更严厉的限购,要不要收取为其的排放税等等。

2.把数据对象进行聚类

比如我们知道大量的人在电子商务网络消费数据,我么就可以根据消费的特征把他们聚成很多类,每一类人我们制定不同的营销手段,从而能够取得销售量的提升。比如电信运营商对人群进行聚类,然后针对性地推出电话套餐。

3.把数据对象进行分类

当我们已经有了分类之后,来了一些新的数据之后,我们可以把他分到不同不同的类去。比如医疗影像上查看肺部的病灶,可能是肺结核、可能是早起肺癌,中晚期肺癌,可能是肺上的疖结,可能是愈合的病灶等等,来了一张新的片子,我们可以通过图像处理,就把它分到不同的类别(当然这需要我们提前对很多片子的数据进行学习)。

4.预测缺失数据或者未来的数据

很多数据集中,比如生物数据,我们已知的知识全部数据集中的一小部分,这需要我们做一些事情去预测这些数据。还有一些,想大选、股票价格预测、河流径流量预测、城市用电量预测等,这些就是对未来数据的预测。

⑵ 为什么要进行数据挖掘

为什么要建立数据仓库,数据仓库和数据库的区别?因为理论上的优点说法都很多,但要真正很好地理解,能简洁地向客户阐述明白,让客户觉得建立数据仓库是一件值得做的事情,还是值得讨论一下这个问题。有如下一些朋友们说法(自己在批注处谈点个人的意见):

A

数据库是一个装数据(信息的原材料)的地方。 数据仓库是一种系统,这种系统也是用数据库装东西。(这有点没说清楚:个人理解数据库和数据仓库当然都是装数据的地方,关键的区别是装的什么样的数据,数据库装的原始数据,没经过任何加工;而数据仓库是为了满足分析需要,对源数据进行了Transform过程,具体是怎样一个处理过程,可以从Bill Inmon的仓库定义四个特性进行理解。) 数据仓库系统(用数据库装东西)与其他基础业务系统(例如财务系统、销售系统、人力资源系统等,也是用数据库装东西)的区别是: 基础业务系统的特点是各管各的,例如财务系统生产了白菜,那么用一个数据库来装,人力资源系统生产了猪肉,再用一个数据库来装。我要做一道菜,需要分别到各个数据库去取,比较麻烦(现实的情况是大部分时候让种菜的农民伯伯送过来,但送过来的东西不一定是我想要的,而且不同的时候我想要不同的东西,经常会被农民伯伯骂,弄得双方都不开心)。另外一方面,各个数据库中放的是一些比较原始的东西,我要拿过来做菜,还需要经过很麻烦的清洗过程,一不小心里面可能就藏着一条大青虫。 那么,数据仓库系统就是建立一个大的超市,将各地农民伯伯出产的东西收集过来,清洗干净,分门别类地放好。这样,你要哪种菜的时候,直接从超市里面拿就可以了。

B

早期一直不理解数据仓库是什么困惑得很。 宏观一点讲,数据仓库就是堆放公司所有数据的地方,之所以把数据都堆在一起,是为了从中间找到有价值的东西。 数据仓库更多的是一个概念,不要把数据仓库想成那些号称是数据仓库的软件产品们。(数据仓库的建立和数据挖掘都是一个过程,可以从数据仓库生命周期和OLTP系统生命周期的区别进行理解,数据挖掘过程CRISP-DM) 数据仓库的物理上就是数据库。相对业务系统数据库叫OLTP数据库(用于业务处理),这种数据库叫OLAP数据库(用于业务分析,不知道有没有这种说法,个人觉得OLAP和数据库还是不能简单地称为OLAP数据库的;OLAP是针对特定问题的联机数据访问和数据分析而产生的一种技术,它满足DDS从多种角度对数据进行快速、一致、交互地分析,克服传统DDS交互能力差的弊病,使决策者能够对数据进行深入观察。OLAP服务器使用为用户预定义的多维数据视图对数据仓库的信息进行统计分析处理,为具有明确分析范围和分析要求的用户提供高性能的决策支持在线分析处理,只是基于DW上的一种多维分析方式,当然我也可以不用OLAP,直接做基于DW的DM)。 数据仓库的概念是针对以下基本需求产生的: 公司的业务系统很多,业务系统的历史数据不方便查询。不同的业务系统往往管理部门不同,地域不同。能不能将所有这些数据集中起来,再淘淘有没有有意义的业务规律。 数据仓库数据库往往很大,因为公司所有的数据集中得越多,越能淘到有价值的发现。例如随便就100G以上。 数据仓库的组成十分繁杂,既有业务系统的历史数据,又有人事、财务数据,还要自己建一些基础性的数据,例如,公共假期数据、地理信息、国家信息等等。 数据仓库概念包含从业务生产系统采集数据的程序,这个程序还不能影响业务系统的运行。(属于所谓“ETL”过程) 数据仓库包括业务系统长期的历史数据,例如5年,用来分析。(所谓“ODS”数据) 数据仓库包括针对某相业务值(例如销售量)重新打上标签的业务流水数据。(所谓“事实表”、“维度表”)。 数据仓库概念兴许还包含报表生成工具(所谓“BI”工具)。这些工具能够达到几年前所谓DSS(决策分析)的效果。 数据仓库的客户历史资量的分析,也许又与CRM系统粘点边。 总之,一点,一个公司想针对已有的历史业务数据,充分的利用它们,那么就上数据仓库项目。至于哪些吓唬人的大写字母的组合,只是达到这个目标的科学技术罢了。 牢记住数据仓库的基本需求,不要被供应商吓着。

C

数据仓库可以说是决策支持系统(个人不同意这个观点,决策支持系统(DDS)是在管理信息系统的基础上发展起来的,在数据仓库、OLAP技术和数据挖掘工具出现以前,就已经有DSS了,但其在实际应用开发过程中暴露出许多问题,DW为克服传统DDS存在的问题提供了技术上的支持,基于DW上的DSS效果自然有很大提升),能帮助老板了解企业的整体全貌,看到数据仓库提供的经过整理统计归纳的数据后老板凭自己的管理经验可以发现企业的问题或困难或成功因素在哪一方面,然后可以不断的追溯数据,直到确定到最具体的细节上,这样能够不断提升老板或管理层的管理水平,不断改善企业的管理。我们知道的最好的一个例子就是美国某大型超市啤酒和尿布的故事。 沃尔玛公司在美国的一位店面经理曾发现,每周,啤酒和尿布的销量都会有一次同比攀升,一时却搞不清是什么原因。后来,沃尔玛运用商业智能(Business Intelligence,简称BI)技术发现,购买这两种产品的顾客几乎都是25岁到35岁、家中有婴儿的男性,每次购买的时间均在周末。沃尔玛在对相关数据分析后得知,这些人习惯晚上边看球赛、边喝啤酒,边照顾孩子,为了图省事而使用一次性的尿布。得到这个结果后,沃尔玛决定把这两种商品摆放在一起,结果,这两种商品的销量都有了显着增加。 数据库是数据仓库的基础。数据仓库实际上也是由数据库的很多表组成的(这句话明显不成立,数据仓库里表分为事实表和维表,这和数据库里的表还是有本质区别的,组织方式完全不一样,一个是面向主题,一个是面向业务的)。需要把存放大量操作性业务数据的数据库经过筛选、抽取、归纳、统计、转换到一个新的数据库中。然后再进行数据展现。老板关注的是数据展现的结果。

⑶ 数据分析和数据挖掘的深入学习为什么重要

1、大数据(big data):
指无法在可承受的时间范围内用常规工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)Veracity(真实性) 。
2、数据分析:
是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。
3、数据挖掘(英语:Data mining):
又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

⑷ 数据挖掘为什么要对数据进行分类

不太明白您说的分类是什么意思?是在数据预处理阶段,还是挖掘的目的?

如果在数据预处理阶段,可能是只对某个领域的数据进行挖掘,从而可以得出更置信的结论;
如果是挖掘目的,也就是模型的输出,这就比较好理解了。

⑸ 为什么说数据挖掘技术是未来信息处理的骨干技术之一

参考答案:数据挖掘之所以被称为未来信息处理的骨干技术之一,主要在于它以一种全新的概念改变着人类利用数据的方式。数据挖掘和知识发现使数据处理技术进入了一个更高级的阶段。它不仅能对过去的数据进行简单地查询,并且能够找出过去数据之间的潜在联系,进行更高层次的分析,以便更好地做出理想的决策、预测未来的发展趋势等。

⑹ 为什么数据挖掘要从机器学习中分离出来

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘本质上像是机器学习和人工智能的基础,

⑺ 何谓数据仓库为什么要建立数据仓库何谓数据挖掘它有哪些方面的功能

何谓数据仓库?为什么要建立数据仓库?
答:数据仓库是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。
建立数据仓库的目的有3个:
一是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。
二是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。
三是解决决策分析对数据的特殊操作要求。决策分析是面向专业用户而非一般业务员,需要使用专业的分析工具,对分析结果还要以商业智能的方式进行表现,这是事务数据库不能提供的。

何谓数据挖掘?它有哪些方面的功能?
答:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。
数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。

⑻ 什么是数据挖掘数据挖掘与传统分析方法有什么区别

数据挖掘(英语:Datamining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discoveryin Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具 有先未知,有效和可实用三个特征.

更多数据挖掘的信息,推荐咨询CDA数据分析师的课程。CDA数据分析师的课程内容兼顾培养解决数据挖掘流程问题的横向能力以及解决数据挖掘算法问题的纵向能力。要求学生具备从数据治理根源出发的思维,通过数字化工作方法来探查业务问题,通过近因分析、宏观根因分析等手段,再选择业务流程优化工具还是算法工具,而非“遇到问题调算法包”。 点击预约免费试听课。

阅读全文

与为什么数据挖掘相关的资料

热点内容
港股通什么时候交易日是半天 浏览:715
如何辨别酒水代理商 浏览:203
技术服务承诺书什么时候签 浏览:449
智慧水务信息化怎么解决 浏览:235
有一款产品应该怎么卖 浏览:15
如何进行建设工程信息化管理 浏览:997
为什么程序什么都输出不了 浏览:788
满25岁学什么技术好 浏览:252
佳炎光电技术怎么样 浏览:620
青岛满2年不满5年的房子怎么交易 浏览:538
程序放在哪个存储区 浏览:857
光电信息科学与工程要考什么证 浏览:827
漳州有哪些市菜市场 浏览:238
交通运输市场怎么样 浏览:538
如何在交易所交易点券 浏览:171
孩子学习美发有哪些技术 浏览:743
汉口白马服装批发市场怎么去 浏览:495
一个产品怎么拍摄视频 浏览:644
软件开发跟程序员哪个好 浏览:454
数据营销渠道有哪些 浏览:358