‘壹’ 什么是数据挖掘
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘流程:
定义问题:清晰地定义出业务问题,确定数据挖掘的目的。
数据准备:数据准备包括:选择数据–在大型数据库和数据仓库目标中 提取数据挖掘的目标数据集;数据预处理–进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。
数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。
结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。
‘贰’ 数据分析挖掘包含哪些工作
1、收集数据
收集数据一般是补充外部数据,包括采用爬虫和接口,获取,补充目前数据不足部分。Python scrapy,requests是很好的工具。
2、准备数据
主要包括数据清洗,预处理,错值纠正,缺失值填补。连续值离散化,去掉异常值,以及数据归一化的过程。同时需要根据准备采用的挖掘工具准备恰当的数据格式。
3、分析数据
通过初步统计、分析以及可视化,或者是探索性数据分析工具,得到初步的数据概况。分析数据的分布,质量,可靠程度,实际作用域,以确定下一步的算法选择。
4、训练算法
整个工作流最核心的一步,根据现有数据选择算法,生成训练模型。主要是算法选择和参数调整:
算法的选择,需要对算法性能和精度以及编码实现难度进行衡量和取舍。 (甚至算法工具箱对数据集的限制情况都是算法选择考虑的内容)。实际工程上,不考虑算法复杂度超过O(N^2)的算法。Java的Weka和Python的Scipy是很好的数据挖掘分析工具,一般都会在小数据集做算法选择的预研。
参数调整。这是一门神奇的技能,只能在实际过程中体会。
5、测试算法
这一步主要是针对监督算法(分类,回归),为了防止模型的Overfit,需要测试算法模型的覆盖能力和性能。方法包括Holdout,还有random subsampling.
非监督算法(聚类),采用更加具体的指标,包括熵,纯度,精度,召回等。
6、使用,解释,修正算法
数据挖掘不是一个静态的过程,需要不断对模型重新评估,衡量,修正。算法模型的生命周期也是一个值得探讨的话题。
‘叁’ 《痛点:挖掘小数据满足用户需求》读后感
《The tiny clues that uncover huge trends》
一直以来,我都是被灌输大数据的重要性。我也是真心认为大数据无比重要,比如深度学习、stitch fix自主设计服装、无人驾驶,大数据管理物流,挖掘虚假数据,语音助手等等。
看了这本书,我发现小数据也是如此重要。
喜马拉雅音频解读
马斯洛的自我表达的需求。
虽然我也有时候买过冰箱贴,比如在台湾的时候,但是真的就是不知道买啥东西了,随便买买吧。没想到冰箱贴代表了潜意识我想要什么。
接着作者提到了他设计沙特阿拉伯商场的经历。曾经的商场顾客稀少,管理者希望新设计得商场能改变曾经的状况。
商业也可以变成造福日常百姓生活的方式。
喜马拉雅音频解读
这一章作者主要描述了如何通过观察让一个人流稀少的超市起死回生,重新吸引顾客。
所以重要的是给人不一样的感觉,让人有新鲜感,可以在这个超市找到一种逃避不一样的感觉?但是如何给顾客不一样感觉就挺难了,没有发现顾客真实需求会做得适得其反。
所以不想住在美国,去哪里都要开那么久的车。
话说我原来看超市的员工时候也从来没有期望过他们会对这样简单临时工作会有任何投入。不就是整理货物。话说我对所有的服务性工作都觉得那不是很简单,柜姐也是,不就忽悠顾客买么。但是看了评论李佳琪的视频,发现,呃,原来柜姐或柜哥做的出色也可以收入上亿。虽然这样的人很少很少,但是还是充满各种可能性。
回到Lowes supermarket,正是因为员工没有啥激情和责任心,所以超市就看起来更没有让人购物欲望,如果沃尔玛更干净整洁便宜,显然会更偏向去沃尔玛。
以前真的没注意过这些约定俗成的惯例。形式还是需要的。而且也应该去思考为什么我们需要这些形式。
在懵懂的时候我会比较随意牵别人手,但是现在我却变得很在意我是否和人有肢体接触。害怕别人认为我对她有意思= =当然对方主动我就无所谓,而且对方也明确知道我对她没有意思。如果我真的对对方有意思,我也会更加注意保持距离,不要有肢体接触。
在公司里我也感受到了政治正确性,比如男女平等。哎,真正不在乎的就不会去思考这些问题。比如你的性取向问题,如果真正做到了性取向的完全平等,根本就不会在意也不会去问你的性取向是什么。
为了证明我们的平等反而做了一些刻意的事情,更显示了差异对待,呃,真是过犹不及,很难抉择。所以大概这样一定会经历三步骤吧:不平等、制定政策让人们意识到不应该那么做注意大家的平等、终于回归到大家都不去这个差异对待问题存在了。
不同意,我觉得有利有弊,如果你可以合理利用智能手机优点就好啦。
所谓社区,就是给人一个归属感的地方吧。为啥我不想去住在美国硅谷?所谓的无聊其实就是没有归属感?甚至也没有一个可以让我去逛街的地方?聚餐都要开车到一个看着挺破败的地方?比如我现在住的Balmain还是有点给我社区的感觉?至少我知道如果我购物我就会去那条主街道,那里有什么我也很熟悉。虽然没有作者说的冲突和分歧,但我其实大概知道那个药店是个长得像华裔的人开的,药剂师给我开的药还挺有用的,他理我距离也很近。那个针灸馆是华人的,虽然现在什么都关了。是的,社区很重要,但是社区不仅仅是伴随着冲突和分歧出现的。我也没有只是活在网络空间中。
这样家庭主妇的日本好像有点很悲惨耶,没有自己的爱好和空间。
不过我想绝大部分人没有那么悲惨吧。至少我认识的绝大部分在美国养娃的人都有自己的工作。我看的那些书很多女人也是事业有成。咦,发现我真的是在用事业定义一个人,如果她在这个世界没有留下什么,我就觉得不怎么样,呃。
说直白点就是无聊,没有新鲜感。
虽然宅着的日子唯一走路距离就是楼上楼下,我大概还是没有觉得无聊吧。就是看着外面明亮的阳光,感叹下不能去找皮皮(虽然去找也没啥意义)。其余还是很充实的,不然我也没有那么多时间去写那么多读后感,还去录喜马拉雅音频。
虽然我还是会打开rela刷刷有没有人理我,但我那是无聊了么?对啊,如果我不觉得无聊,那我打开rela刷刷是为什么呢?我肯定不会找人扯淡聊天,都这个时间节点了,有何意义。
因为刷rela不用脑子就看看附件养眼的人?但其实是很浪费时间的。是因为我需要一个没啥意义的事情去做么?比如写读后感什么的还是比较沉重?看微博、今日头条热搜也是比较沉重的?又要思考这些事情对我意味着什么?还是我就是比较乐意活在自我的世界中。
手机给我一个逃避的空间?刷rela给了我一个幻想的世界?让我幻想如果我有一个partner会处于什么样状况?为啥我开始反思为啥我刷rela了。呃。但是我也知道如果我有partner,对方不能持续给我带来新鲜感我会厌倦。
人的一生到底在追求什么?例行公事真的那么不可取?新鲜感真的如此重要么?
是的,新鲜感对我来说很重要。
不过作者这一章节就在不断强调需要社区感,给美国人营造社区感的超市。
话说我去了悉尼那么多家超市,有给我社区感的么?NO。
coles,wws不用说都是千篇一律,不过他们真的比一般的华超整齐有序。虽然华超东西显然齐全很多。哎,去超市重要的还是和谁一起去 - -不过如果每次都和某个人一起去那个超市也会变无聊吧。人啊,真是太复杂的生物了。
world square下的华超和WY就曾经一直一起去,就完全没有感触LOL
超市的重新设计也是一门艺术。现在最近的wws虽然给我千篇一律的感觉但我也已经习惯了。
还是没觉得作者以上做的让人更自由?
喜马拉雅音频解读
这一章作者分析印度文化特色很有趣!作者把每一个找到解决方案的步骤描述得特别详细,这也是他的文章吸引人的魅力所在。
一般读者看到这些文字对印度会产生偏见吧。我去印度时候就没有觉得空气有那么糟糕。作者描绘得也太形象生动了!
还是觉得印度没那么糟糕LOL有机会还是想再去一次的。
好想去围观印度人的婚礼。大概我就是抱着新鲜感去体验。
作者描绘得又有点夸张,看你在哪里了。在Varanasi等小城市,只要你去得足够偏僻,还是会有一个人的道路的。哎,如果那时候就有VLOG就好了,我就能大概记住那时候的旅游感受了。现在除了几张照片一无所有,除了火车超级晚点,在火车上无助没吃的没座位,在一节女性车厢里,印度女人们看我太可怜施舍我吃的(我好可怜,哈哈)。后来终于到了Agra,看到泰姬陵那一刹那的震惊哭了的回忆。
虽然Varanasi很脏,还是最喜欢Varanasi了。
不知道现在如何。
喜欢人或事都是由瞬间决定的。一见钟情也是。
我从来没有归属。
是不是因为这样肥胖的我就不会有瘦的朋友,哈哈哈。其实我也没那么肥是不是lol为了激励我自己,我把我最肥的照片上传KEEP仅自己可见,激励自己减肥。
平均体重75kg!
我原来以为沙特阿拉伯人都挺瘦的?至少我在迪拜看到的不肥啊?而且皇室成员会有保持体态的压力?肥胖很容易在脸上反应出来,所以我感觉他们还是有点在意的?
无知好可怕。就比如说要把工厂都迁出中国。
呃,我好像也是。不断换着尝试新的减肥方法。其实我也知道,最重要的是坚持,饮食少吃+运动。但是这样子瘦的真的超级慢,我也没有耐心。
超重人群在公共场合吃的很少- -这是在说我么。若干次被皮皮说你吃的好少。呃,只是因为那个时间节点不是我饭点,我吃的不少?不然我就不会还是那么肥了LOL
最近死宅在家,我的早饭时间变成了六七点(看我六点还是七点起床),午饭十二点左右,晚饭可以牛逼变成两点= =比如今天。不过也是因为中午吃多了。中午真的吃的好多!不然我一定可以瘦了。中午吃的不多我也不会晚上还是不饿。哎。所以重点还是少吃+坚持。
我才知道原来麦当劳的意义在于这啊!
所以作者提出了一个很复杂的解决欢乐套餐平淡问题解决方案,看着是很健康也有趣,但最后没有实行。
我专门去 9News
找了今天双子座的占星结果:
完全一点看的兴趣也没有。完全不信。但是好像可以理解了作者说的 看占星图能控制一个混乱的世界,反过来控制自我 。因为这其中好像有一种仪式感,知道今天我应该看重什么应该怎么行动。(虽然我觉得就是废话)。本身有个长远目标去做就好了为啥还要看占星图呢。
但是当健身房的会员,没有那么强烈的仪式感和归属感。毕竟我现在坚持健身也觉得每周瘦半斤完全没有动力啊!要不是我每天实在没啥吃的,也懒得做饭,不然我肯定不会就吃那么点。
作为一个几乎不带首饰的人。除了偶尔想要个戒指证明我不是单身(原来我也有这样的需求啊!首饰作为一个象征)。好像又可以明白了带首饰人的想法,比如总是带着LV,Channel项链那些人。当我看到liziqi的时候,看到她朴素的打扮,才发现原来我觉得我不懂首饰奢侈品觉得我无知这样的想法是多么幼稚(不过也是因为当我想追某人的时候我觉得她的一切都是很美好的- -然后我会变得超级没有自信)。其实我完全没必要这样,首饰就是身外之物。真正有自信的人比如liziqi靠着内涵撑起自己。忽然好像有点喜欢李子柒了。前几天我还说相比李子柒我更喜欢十音,看了几个李子柒的访谈,我发现还是李子柒的视频更有料。
那些从首饰奢侈品中找归属感的人是不是内心不够强大?不过内心强大的人本来也不多?
绿色剧本指的是感性剧本。蓝色剧本是理性剧本。
一串珠子竟然有如此牛逼作用。
赋予了珠子新的意义,人好像在珠子中找到新的价值,归属感?
是这个自动扶梯?有12层楼?看着不像?还是俄罗斯地铁的自动扶梯让我印象深刻。真的好深,感觉就是按照防空洞级别来设计的。
我一个人去印度时候,别人听了都觉得比较震惊。也许有些时候这些谨慎是正确的,比如去墨西哥有些地方还是比较危险的?毕竟不能拿着生命去冒险。
Kirin == 麒麟。每个啤酒厂商都想让自己啤酒成为时尚代名词。这真的是一个复杂的问题。作者的牛逼之处就在于他做到了。
真的那么难以跨越?比如你成为足球明星了不就跨越了?(虽然是很难啦)。如果每个阶层都有一定的食品类型,那我穿的像上一个阶层的食物就是那个阶层么?不是吧?还是你的社交圈子决定了你是哪个阶层吧?
但是头发和面部特征都可以装?话说不知道是不是看我样子也可以看出我是哪个阶层,哈哈哈哈。但是如果是头发和面部特征,我都可以去做吧。
那对中国儿童来说,就更加受限制了?
喜力啤酒还是地位标志???
和买奢侈品人的心理一样,都是比较没有自信心的表现?需要通过外界物质来显示自身身份地位。
闲聊的内容都差不多,除非有共同兴趣爱好或者当下有某个比较热门话题或者环境中有比较特别事物。
但终究来说还是有共同兴趣爱好比较能够持续对话,而且觉得对话有意思。
网红点的盈利模式。制造谈资。
大家都吸引他人注意力的需求。
巴西人肯定也是想吸引他人的注意力,但是他们想通过怎么样的方式展现自我吸引他人注意力,就是比较深层次的问题了。
作者比较具体给出了
香港人也是想比较吸引他人注意力,通过马球,喝的饮料类型,穿着意大利服装品牌。
但是你对这个外来国家的期望可能只是建立在想象基础上的。
如果一件衣服能代表着梦想,怎么都不过时。而且时尚就是会过时。
‘肆’ 痛点-挖掘小数据满足用户需求
一开始想读这本书,是因为书名,毕竟我们干产品这行的最想要的就是挖掘用户的痛点,给出解决方案来满足用户。拿到手以后才发现这边书作者并不是互联网行业从事者,作者有点类似于在咨询公司工作,为很多企业挖掘用户价值提供解决方案。从这一点上来说,其实大家干的活还是差不多的。
本书中前七章都是坐着讲解自己的工作案例,从俄罗斯到美国、沙特、中国,作者都为当地的企业服务过,案例的进程有点类似于侦探小说,作者总是能找到其中他人难以发现的联系。可能这就是“天赋”吧!对于常人来说,感觉没有什么太大借鉴意义。作者在最后总结了几条方法论--7c框架,这里简单摘录一下。
在搜集阶段,你要尽可能从最多的可信资源中,获取许多不同的观点。给自己建立一个中立的角色,去审视用户的行为动作。
创建一个叙述性的、连贯性的故事。你看到一切都不是毫无意义,你听到的一切都不能浪费。
找到线索之间的联系,这些线索是否偏向了某个方向?如果最初有过假设,你打算开始验证了吗?
卓碧思的顾客经历着一种强烈的不安全感,而Roomba的客户发现,这件产品是填补孤独和不安全感的一种方式。
验证完因果关系,就该提取最强烈的情绪本质:欲望。还有欲望没被满足?满足欲望的最佳方式是什么?在洛斯的例子里,答案是在自然环境下创造一种强烈的归属感。卓壁思粉丝要重新连接和发现,归属某个群体是什么感觉。Roomba粉丝需要向全世界展示他们的人性特征。
你是谁?你一个人呆着的时候是什么样子?当你在社交媒体上发布一个状态,或者系换某段音乐时,你在对世界表达什么信息?当你买一条裤子、一双全新的品牌鞋,当你在窗前挂上一套竹帘,当你在冰箱门上贴上精选照片,当你在浴室里留下一瓶面霜时,你都在传递什么信息?我们的小数据中,永远都能最贴切的证明我们是谁,我们渴望什么。
做了这么多的信息收集,马丁•林斯特龙最终要做的,是潜台词研究,从小数据中挖掘出用户真正的痛点——潜在的需求。很多时候,用户实际上不能非常清晰的表达出自己的内在需求。人们有意无意的掩饰了真实的自我,同时掩饰了自己内在的习惯和欲望。人们内在的真正需求,很可能藏在潜意识当中,比如一种未达成的愿望、一种无理由的迷信、缺失的群体归属感、因文化习惯被压抑的需求、一种代表特定含义的仪式感、一种特别情感需求的渴望等等。那些未被表达出来的、未被满足的、缺失的、不平衡的,才是用户真真切切的需求。痛点就是用户潜藏的未被满足的欲望。捕捉到这些用户的欲望,才能直击要害,创造出补偿或者满足这一缺口的产品。
产品的功能当然重要,但产品与用户之间的情感联系也不可忽视。就像希区柯克的两个剧本,“蓝色剧本”完全是功能性的,满足观众的理性的需求,“绿色剧本”则关注内容细节、情感主线等,关注观众的感受、情绪,满足观众的感性需求。好的产品,应该是在理性(功能上)和感性(情感需求)上同时抓住用户。许多不成功的产品忽视了用户的情感需求,马丁•林斯特龙正是善于从小数据中挖掘出用户内心情感需求的专家,善于挖掘“绿色剧本”的内容。
‘伍’ 学习数据挖掘需要那些基础知识
学习数据挖掘需要学习编程语言(Python、C、C++、Java、Delphi等),数据结构和算法,操作系统和网络编程。
数据挖掘涉及的内容比较泛,机器学习、数据挖掘、人工智能,这些知识大多是相通的。编程语言主要是C语言、C++和Java,。我首先这里可以学习C语言圣经《C程序设计语言》以及《C++ Primer》,数据结构和算法推荐《数据结构与算法分析(C语言描述)》。最好有机器学习,涉及到数据挖掘,自然语言处理和深度学习。数据挖掘主要是搜索排序,反作弊,个性化推荐,信用评价等;需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),明白MapRece的原理操作以及熟练使用Hadoop系列工具。
如果想提升关于数据挖掘方面的能力,这里推荐CDA数据分析师的相关课程,教你学企业需要的敏捷算法建模能力,可以学到前沿且实用的技术,挖掘数据的魅力;课程中安排了Sklearn/LightGBM、Tensorflow/PyTorch、Transformer等工具的应用实现,并根据输出的结果分析业务需求,为进行合理、有效的策略优化提供数据支撑点击预约免费试听课。
‘陆’ 数据挖掘需要哪些技能
编程语言
数据挖掘和数据分析不一样,数据分析可以利用一些现成的分析工具完成,但是数据挖掘绝大部分要依赖于编程,在数据挖掘领域常用的编程语言有R、Python、C++、java等,R和python最受欢迎。
大数据处理框架
做数据挖掘不可避免的要接触大数据,目前常用的大数据框架就两个,Hadoop和Spark,Hadoop的原生开发语言是Java,资料多,Spark的原生开发语言是Scala,不过也有Python的API。
数据库知识
这个不用多说,既然是和数据打交道,数据库知识自然少不了,常见关系数据库和非关系数据库知识都要掌握,如果要处理大数量数据集,就得掌握关系型数据库知识,比如sql、oracle。
数据结构与算法
精通数据结构和算法对数据挖掘来说相当重要,在数据挖掘岗位面试中也是问的比较多的,数据结构包括数组,链表,堆栈,队列,树,哈希表,集合等,而常见的算法包括排序,搜索,动态编程,递归等。
机器学习/深度学习
机器学习是数据挖掘的最重要部分之一。 机器学习算法可建立样本数据的数学模型,来进行预测或决策, 深度学习是更广泛的机器学习方法系列中的一部分。这部分的学习主要分两块,一是掌握常见机器学习算法原理,二是应用这些算法并解决问题。
统计学知识
数据挖掘是一个交叉学科,不仅涉及编程和计算机科学,还涉及到多个科学领域,统计学就是不可获取的一部分,它可以帮我们更快的识别问题,区分因果关系和相关性。
关于数据挖掘需要哪些技能,青藤小编就和您分享到这里了。如果你对大数据工程有浓厚的兴趣,希望这篇文章能够对你有所帮助。如果您还想了解更多数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。
‘柒’ 什么是数据挖掘数据挖掘与传统分析方法有什么区别
数据挖掘(英语:Datamining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discoveryin Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具 有先未知,有效和可实用三个特征.
更多数据挖掘的信息,推荐咨询CDA数据分析师的课程。CDA数据分析师的课程内容兼顾培养解决数据挖掘流程问题的横向能力以及解决数据挖掘算法问题的纵向能力。要求学生具备从数据治理根源出发的思维,通过数字化工作方法来探查业务问题,通过近因分析、宏观根因分析等手段,再选择业务流程优化工具还是算法工具,而非“遇到问题调算法包”。 点击预约免费试听课。
‘捌’ 《痛点挖掘小数据满足用户需求豆瓣》pdf下载在线阅读全文,求百度网盘云资源
《痛点挖掘小数据满足用户需求豆瓣》网络网盘pdf最新全集下载:
链接:https://pan..com/s/1oJOdvo8VJl_xyjf3faMc4Q
‘玖’ 数据挖掘的定义是什么
数据挖掘(Data Mining)是指通过大量数据集进行分类的自动化过程,以通过数据分析来识别趋势和模式,建立关系来解决业务问题。换句话说,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
原则上讲,数据挖掘可以应用于任何类型的信息存储库及瞬态数据(如数据流),如数据库、数据仓库、数据集市、事务数据库、空间数据库(如地图等)、工程设计数据(如建筑设计等)、多媒体数据(文本、图像、视频、音频)、网络、数据流、时间序列数据库等。也正因如此,数据挖掘存在以下特点:
(1)数据集大且不完整
数据挖掘所需要的数据集是很大的,只有数据集越大,得到的规律才能越贴近于正确的实际的规律,结果也才越准确。除此以外,数据往往都是不完整的。
(2)不准确性
数据挖掘存在不准确性,主要是由噪声数据造成的。比如在商业中用户可能会提供假数据;在工厂环境中,正常的数据往往会收到电磁或者是辐射干扰,而出现超出正常值的情况。这些不正常的绝对不可能出现的数据,就叫做噪声,它们会导致数据挖掘存在不准确性。
(3)模糊的和随机的
数据挖掘是模糊的和随机的。这里的模糊可以和不准确性相关联。由于数据不准确导致只能在大体上对数据进行一个整体的观察,或者由于涉及到隐私信息无法获知到具体的一些内容,这个时候如果想要做相关的分析操作,就只能在大体上做一些分析,无法精确进行判断。
而数据的随机性有两个解释,一个是获取的数据随机;我们无法得知用户填写的到底是什么内容。第二个是分析结果随机。数据交给机器进行判断和学习,那么一切的操作都属于是灰箱操作。
关于派可数据,用心创造数据价值 让数据分析更简单
‘拾’ 什么是数据挖掘
1、什么是数据挖掘?
数据挖掘(Data Mining)是采用数学的、统计的、人工智能和神经网络等领域的科学方法,如记忆推理、聚类分析、关联分析、决策树、神经网络、基因算法等技术,从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。
数据挖掘综合了各个学科技术,有很多的功能,当前的主要功能如下:
(1)、分类:按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。
(2)、聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。
(3)、关联规则:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。
(4)、预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。
(5)、偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。
当然除了以上所列出的还有时间序列分析等一些其他的功能,需要注意的是:数据挖掘的各项功能不是独立存在的,在数据挖掘中互相联系,发挥作用。