❶ 数据挖掘论文可以有什么题目
数据挖掘得概念,关键技术及应蔽亩用
数据挖掘的分类方宏含森法、概念、关键技术、老颤图形图像得应用
数据挖掘的关联规则、概念、算法(以两种算法规则为例)归纳算法过程
❷ 求数据挖掘考试题
1. 什么是关联分析
关联分析是数据挖掘领域常用的一类算法,主要用于发现隐藏在大型数据集中有意义的联系。
举一个大家最耳熟能详的例子,就是尿布和啤酒,表示成关联规则的形式就是{尿壶} ——> {啤酒}。这就是使用关联分析方法所得到的结果,而关联分析所得到的结果,我们可以用关联规则 或者 频繁项集的形式表示。
在进行关联分析时,我们常常会遇到这样两个问题:
A. 从大型数据集中发现模式一般来说需要在计算上付出巨大的代价,甚至往往是impossble的,我们往往采用置信度和支持度的剪枝来解决这个问题。
B. 所发现的某些模式可能是虚假的,这个我们需要采用一些关联规则的评估来解决这个问题。
2. 基本概念
A. 项集:在关联分析中,包含0个或者多个的项的集合称为 项集。 如果一个项集包含k个项,那么就称为k-项集。比如{牛奶,咖啡}则称为2项集。
B. 支持度: 支持度用来确定给定数据集的频繁程度,即给定数据集在所有的数据集中出现的频率,例如s(X -> Y) = P(X,Y) / N
C. 置信度: 置信度则是用来确定Y在包含X的事务中出现的频繁程度,即 c(X -> Y) = P(X,Y) / P(X)
3. 关联分析算法的基本原理
支持度和置信度的意义在于,支持度是一个重要的度量,如果支持度很低,代表这个规则其实只是偶然出现,基本没有意义。因此,支持度通常用来删除那些无意义的规则。而置信度则是通过规则进行推理具有可靠性。用c(X->Y)来说,只有置信度越高,Y出现在包含X的事务中的概率才越大,否则这个规则也没有意义。
通常我们在做关联规则发现的时候都会设定支持度和置信度阈值 minsup 和minconf , 而关联规则发现则是发现那些支持度大于等于minsup 并且置信度大于 minconf的所有规则。所以,提高关联分析算法效率最简单的办法则是提高支持度和置信度的阈值。
所以,通过上面的概念,我们可以很自然地想到,关联分析的基本算法:
A. 找到满足最小支持度阈值的所有项集,我们称之为频繁项集。(例如频繁二项集,频繁三项集)
B. 从频繁项集中找到满足最小置信度的所有规则。
4. 关联分析算法的评估
A. 兴趣度的客观度量
首先,我们来考虑一下支持度-置信度框架的局限性。
首先是支持度,举例来说,在图书市场中,文学类书籍的数量远大于物理类书籍,那么物理类书籍的规则支持度就会很低,这样就导致很多物理类书籍的关联规则都被过滤掉了。
接下来是置信度,举例来说,我们对1000人做度量,发现有200人喜欢喝茶,其中有150人喜欢喝咖啡,50人不喜欢,那么我们通过置信度计算发现c(喝茶 -> 喝咖啡)这个的置信度非常高,我们于是可以推算出喜欢喝茶的人都喜欢喝咖啡。但是其实我们看接下来的调查,另外不喜欢喝茶的800人中,有650人喜欢喝咖啡。 综上所述,我们可以发现,其实喝茶和喝咖啡其实是两个独立事件。所以我们可以概括一下,置信度的缺点,就是置信度度量忽略了规则后件中项集的支持度。
(A) 为了解决这个问题,我们引入一个度量,称为提升度(lift),来计算置信度和规则后件项集支持度的比率:
lift(A->B) = c(A->B) / s(B)
那么对于二元项集来说,我们可以做这样一个变换:
lift(X->Y) = c(X->Y) / s(Y) = ( p(X,Y) / p(X) ) / p(Y) = p(X,Y) / p(X)p(Y)
那么这里,我们则可以把lift(X->Y)称为兴趣因子,表示为I(A,B)
通过概率学知识我们可以知道,如果X事件和Y事件相互独立(或者我们称之为满足事件独立性假设),那么p(X,Y) = p(X) * p(Y),那么我们则可以这样来表示兴趣因子的度量:
当I(A,B) = 1时,我们称A和B是相互独立的,当I(A,B) < 1时,我们称A和B是负相关的,否则我们称A和B是正相关的。
但是从这个简陋的计算模型,我们就可以很轻易地感觉出单纯用兴趣因子来做关联度度量的不靠谱。例子特别容易找了。
(B) 对应兴趣因子,还有另外一种相关分析,IS度量等各种兴趣度客观度量方式。
❸ 有关大数据,有哪些题目
题目得按专业课来算
比如数据挖掘,题目多是一些算法理论
比如hadoop,题目就是hadoop生态和组件功能
比如数据库,题目就是数据模型和分布式理论
比如可视化,题目就是报表操作了
❹ 急求有关数据挖掘方面的毕业论文题目
寿险行业数据挖掘应用分析
寿险是保险行业的一个重要分支,具有巨大的市场发展空间,因此,随着寿险市场的开放、外资公司的介入,竞争逐步升级,群雄逐鹿已成定局。如何保持自身的核心竞争力,使自己始终立于不败之地,是每个企业必须面对的问题。信息技术的应用无疑是提高企业竞争力的有效手段之一。寿险信息系统经过了多年的发展,已逐步成熟完善,并积累了相当数量的数据资源,为数据挖掘提供了坚实的基础,而通过数据挖掘发现知识,并用于科学决策越来越普遍受到寿险公司的信悄举重视。
数据挖掘
数据挖掘(Data Mining,DM)是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。其表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。
目前业内已有很多成熟的数据挖掘方法论,为实际应用提供了理想的指导模型。CRISP-DM(Cross-Instry Standard Process for Data Mining)就是公认的、较有影响的方法论之一。CRISP-DM强调,DM不单是数据的组织或者呈现,也不仅是数据分析和统计建模,而是一个从理解业务需求、寻求解决方案到接受实践检验的完整过程。CRISP-DM将整个挖掘过程分为以下六个阶段:商业理解(Business Understanding),数据理解(Data Understanding),数据准备(Data Preparation),建模(Modeling),评估(Evaluation)和发布(Deployment)。
商业理解就是对企业运作、运搭业务流程和行业背景的了解;数据理解是对现有企业应用系统的了解;数据准备就是从企业大量数据中取出一个与要探索问题相关的样板数据子集。建模是根据对业务问题的理解,在数据准备的基础滑碧上,选择一种更为实用的挖掘模型,形成挖掘的结论。评估就是在实际中检验挖掘的结论,如果达到了预期的效果,就可将结论发布。在实际项目中,CRISP-DM模型中的数据理解、数据准备、建模、评估并不是单向运作的,而是一个多次反复、多次调整、不断修订完善的过程。
行业数据挖掘
经过多年的系统运营,寿险公司已积累了相当可观的保单信息、客户信息、交易信息、财务信息等,也出现了超大规模的数据库系统。同时,数据集中为原有业务水平的提升以及新业务的拓展提供了条件,也为数据挖掘提供了丰厚的土壤。
根据CRISP-DM模型,数据挖掘首先应该做的是对业务的理解、寻找数据挖掘的目标和问题。这些问题包括:代理人的甄选、欺诈识别以及市场细分等,其中市场细分对企业制定经营战略具有极高的指导意义,它是关系到企业能否生存与发展、企业市场营销战略制定与实现的首要问题。
针对寿险经营的特点,我们可以从不同的角度对客户群体进行分类归纳,从而形成各种客户分布统计,作为管理人员决策的依据。从寿险产品入手,分析客户对不同险种的偏好程度,指导代理人进行重点推广,是比较容易实现的挖掘思路。由于国内经济发展状况不同,各省差异较大,因此必须限定在一个经济水平相当的区域进行分析数据的采样。同时,市场波动也是必须要考虑的问题,一个模型从建立到废弃有一个生命周期,周期根据模型的适应性和命中率确定,因此模型需要不断修订。
挖掘系统架构
挖掘系统包括规则生成子系统和应用评估子系统两个部分。
规则生成子系统主要完成根据数据仓库提供的保单历史数据,统计并产生相关规律,并输出相关结果。具体包括数据抽取转换、挖掘数据库建立、建模(其中包括了参数设置)、模型评估、结果发布。发布的对象是高层决策者,同时将模型提交给应用评估子系统.根据效果每月动态生成新的模型。
应用评估子系统可以理解为生产系统中的挖掘代理程序,根据生成子系统产生的规则按照一定的策略对保单数据进行非类预测。通过系统的任务计划对生产数据产生评估指标。具体包括核心业务系统数据自动转入数据平台、规则实时评估、评估结果动态显示、实际效果评估。规则评估子系统根据规则进行检测。经过一段时间的检测,可利用规则生成子系统重新学习,获得新的规则,不断地更新规则库,直到规则库稳定。
目前比较常用的分析指标有: 险种、交费年期、被保人职业、被保人年收入、被保人年龄段、被保人性别、被保人婚姻状况等。
实践中,可结合实际数据状况,对各要素进行适当的取舍,并做不同程度的概括,以形成较为满意的判定树,产生可解释的结论成果。
❺ 数据挖掘题目
1: 孤立点分析: 去掉离群点,噪声点(当然主要靠业务分析)
数据平滑: 使整体数据更加平滑,趋势更明显,减小波动
正态化: 这个是统计学的基础要求,所有数据必须朝这个方向处理
离散数据连续化:某些算法只能处理这种数据,反之既然
其他参考数据挖掘书籍(其实更重要是弄清楚X,Y各是什么)
2:
1) 自己研究excel,很简单
2)3) 变换就那么几种,ln, e, 乘个什么数,除个什么数,自己研究一下