导航:首页 > 数据处理 > 数据如何误导了我们豆瓣

数据如何误导了我们豆瓣

发布时间:2023-04-21 20:29:14

A. 大数据时代,容易被数据误导的八个问题

现在做销售、市场的人如果不懂得数据分析,用数据说话那真是落伍了。没见很多企业领导开口就是“拿数据给我看,没有数据我怎么做决策啊?”。可见数据分析在当今的企业管理中占据做非常重要的地位,并且数据分析师也是未来十年最有前途的十大职业之一。

先看一个利用数据忽悠人的案例: 在美国和西班牙交战期间,美国海军的死亡率是千分之九,而同时期纽约居民的死亡率是千分之十六。后来海军征兵人员就用这些数据来证明参军更安全。你认为这个结论正确吗?当然不正确,这两个数字根本就是不匹配的,当兵的都是身强力壮的年轻人,而居民的死亡率是包括老弱病残的数据,这些人相对来说,死亡率是高的。所以正常应该是用同年龄段的海军数据和纽约居民来对比。

其实你发现9‰和16‰根本就不具有可对比性。

企业管理人员对“假”数据是深恶痛疾。原因不言而喻:“假数据”造成资源浪费,决策失误,贻误战机等等。简单总结一下“有问题数据”的几个方面,帮助大家早日练成火眼金睛。需要提醒大家的是“有问题的数据”并不代表一定是“假”的数据,因为有的数据是真的,但是结论确实“假”的。常见的利用数据来

误导大家的情况有以下几种:

一、随意制造“假”的数据来忽悠客户或消费者

请原谅我用了“制造”这个动词。

这种情况随处可见,对于某些人或组织来说,数据的严肃性根本就是一句空话,他们是要什么数据就编什么数据,他们的名字叫”编“委。对于这种情况,我们一定要多问几个为什么,问清楚数据源就可以了。记住“无数据(源)就没有真相”。比如报纸的发行量永远是世界上最难解的谜题,我也不知道答案,我只知道:

1、媒体自己公布的发行量实际上是他们的最高发行记录,一般来讲大家习惯去掉“最高”二字

2、当年某些报纸为了创造最高发行量,直接把报纸从印刷厂拉倒垃圾站,这种情况是公然而无耻的作假,后被禁止

大家看看这句话中的数字是否有错误:公司业务员小强有24个客户,4月不重复客户购买比率为78%(备注:不重复客户购买比例=有订单的客户总数/总客户数)。答案是错误的,因为永远算不出来78%这个数据。

二、定向取值问题

这种一种具有隐蔽性和欺骗性的手段。何为定向取值?就是先假定一个结论,然后选取最利于这个结论的人群进行市场调查或研究,最后号称这个规律或结论具有普遍性。比如平均工资,我要让他高,就去写字楼访问,我要让他低,那就如劳务市场吧!这种方法是一种骗人的伎俩,要不得,可是很多人非常热衷!

把这种方法用到极致的是市场调查公司或某些政府机关。比如某年某地区说要在半年内将房价降价多少以上,半年以后他们真的做到了,可是老百姓并没有感到房价下降的趋势,为什么呢?原来他们玩了个数字游戏,半年前的样本是城区的房价平均,半年后加上了郊区的房价后取平均。

大部分市场调查公司是定向取值的热衷者。很多企业的老板会要求市调公司按照他们的结论来采样调查,然后用这个数据去做广告、公关,欺骗消费者。有些公司的调查数据是真的(即调查的样本数足够多,且没有定向选取调查对象),但结论却是假的。因为企业也可以定向取结论。比如(此事例是为了说明问题,假设的数据,千万不要当真),比如某种牙膏宣传:使用该品牌的牙膏后将使蛀牙减少23%,这个数据是市场调查后的数据。当然这个数据对你一定是有诱惑力的。因为你认为减少的反义词就是没减少!可你是否知道他的背后有可能是这样的:23%的人蛀牙减少,40%的人没有任何反应,37%的人蛀牙反而增多了(只是这种可能性不大)。

看看这幅画你就懂了

三、田忌赛马

田忌赛马的故事大家想必都听说过,利用田忌赛马来误导的情况也是比较多见的。看一个例子,2010年底某知名B2C网站搞了一个“全民疯抢”活动,活动结束后,某人在微博上写道:就成交数据看,在大促四日里的日均交易额已经远远超过了09年度国美、苏宁和百联三家线下大卖场的总和日均销售额。就这句话来说是没有问题的,错在前后数据没有可对比性,用自己促销时的最大值和别人的常规日销售来做对比,这样的对比没有任何意思。这个就好像刘翔参加残奥会比赛得了冠军又能如何?根本就不是一个组别。

再来看一组数据:2010年12月20日到12月26日电影《非诚勿扰2》和《让子弹飞》的周票房分别为2.4亿和2.1亿(备注:非2是12月22日上市,让是12月16日上市)。从这两个数据是否我们可以得出这样的结论:“非2”票房大大超越“让”的票房。从纯数据的角度来说,实际上这两个数据没有可对比性,不匹配。因为12.20-12.26是“非2”上影的第一周,是“让”上影的第二周。正常大片的票房高点都是在第一周。如果我们单看他们第一周的票房数据:让上市第一周4天票房共2.9亿,平均每天0.7亿,非2上影前5天票房2.4亿,平均票房约0.5亿元,“让”票房反而高很多!

田忌赛马实际上就是在选择数据的结论。数据的匹配性是我们时刻都需要提防的,这方面是极易犯错误的,有时候我们看起来非常合理的对比也有可能是非常不合理的。

四、数据分析的系统误差

数据分析有的时候是人为因素影响,有的时候还可能有系统误差出现。举说来说:假设人事部要在一个公司内部调查一下大家对新来的总经理的看法,选项有五个:非常喜欢、喜欢、没感觉、不喜欢、非常不喜欢。要求匿名投票。收回选票后结果如下:非常喜欢25%,喜欢40%,没感觉20%,不喜欢10%,非常不喜欢5%。由于是匿名投票你可能认为这个数据没问题了吧(假设没有拍马屁的现象)。

我的回答是不一定。因为很可能还有很多员工根本就没有投票。他们不投票的原因有可能是不知道该调查或忙没来得及投票等,还有就是这些弃权票很可能都是要投“不喜欢”的人,他们不想表达自己的真实想法,所以他们有“目的”的放弃了投票。想想联合国大会的弃权票吧,有点这个意思的吧。另外如果这个调查的五个选项改成如下排序:非常不喜欢、不喜欢、没感觉、喜欢、非常喜欢。还是刚才投完票的那些人来投,结果可能不一样哦!

强力推荐阅读文章

年薪40+W的大数据开发【教程】,都在这儿!

大数据零基础快速入门教程

Java基础教程

web前端开发基础教程

linux基础入门教程学习

大数据工程师必须了解的七大概念

云计算和大数据未来五大趋势

如何快速建立自己的大数据知识体系

B. 《数据如何误导了我们》:数字只是我们理解现实的一种工具而非事实

文丨云海

格罗夫纳(Charles Grosvenor)曾经说过:“ 数字不会说谎,但说谎的人会玩弄数字。 ”大数据时代,数据在我们的日常生活中几乎无处不在。然而,诸如美国多次民调的预测与最终总统选举结果相左的事实一再提醒我们,数据在看起来准确、清晰、客观的表象下面,真实的情况往往可能是大相径庭的。

荷兰计量经济学家、数据分析记者桑内·布劳(Sanne Blauw)在《数据如何误导了我们 : 普通人的统计学思维启蒙书》一书中就指出,许多数据根本没有表面上看起来那样客观公正,反而常常是被人有意操纵来误导我们。

人们大规模使用数据的历史,始于19世纪,南丁格尔就是世界上最早用图表显示数据变化的人之一。得益于数字标准化、大规模数据采集和数据分析这三个重要发展阶段,南丁格尔等人才能够在数字风潮兴起的时代,体验到数据客观、有说服力的好处。

然而,数字标准化、大规模数据采集、数据分析这三个至关重要的步骤,并不总能被永远正确地执行。一旦出错,往往就会导致严重的错误,这是数字的坏处。作者用智力测试的案例, 向我们展示了数字的局限性:数字背后隐含着人们的价值判断;并非所有事物都能被量化;衡量同一件事的方法有许多种;有很多事情数字并不会告诉我们。

我们测量一个人的智力水平时,需要借用智商这个抽象的概念。为了测量智商,首先需要对它进行标准化,也就是需要研究者去选择一些测量智商的指标。这样操作的后果是,测量得出的数字可能是客观的,但在标准化背后的人为决定,则往往带有主观色彩,导致测量出来的结果与客观真实情况可能相距甚远。

其中的原因之一是 ,人们可以采取各种不同的方法或口径来测量同一个概念 。比如,联合国粮食及农业组织(FAO)曾将“饥饿”定义为:一个人在一年内摄取的卡路里过少,即为营养不良。2012年,FAO又提出了另外一种定义的饥饿的计算模式,最后得出的数据也不一样。这就造成了一种现象,全球饥饿人数在不同的情况下,可能出现增长或减少两种截然不同的结果。也就是说, “饥饿”的情况如何,很大程度上取决于你如何定义“饥饿” 。

同样的情况也出现在智商的例子里。在过去几十年里,智力测试的内容每隔一段时间就会更新一次。这就出现了一个令人惊讶的结论:人类的智商在19世纪是逐渐升高的。而这个结论的荒谬之处在于,如果用当前的衡量标准重新计算,那么,前几代人的得分都在70分附近,而这个数值意味着智障。

同时,作者还在书中反复强调,之所以不要盲信数字,还因为 如何解释数字背后的意义,取决于数字使用者的理念或需求 。2017年,烟草巨头菲莫公司曾宣布每年向一个名为“无烟世界”的基金会捐资8000万美元,由于烟草业与公共卫生之间存在的根本利益冲突,此举引起了世界卫生组织的强烈反应。因此,作者提醒我们,数字不等同于事实,数字只是我们理解现实的一种工具。

那么,我们应该如何解读数字,才能避免被数据误导呢? 作者在揭示获取数字的调查统计过程中可能犯的6个关键错误(第三章)后,提供了几个鉴别数据是否可信的方法:(1)问问自己:”对于这个数字,我的感受是什么?“,因为那些容易引起人们有所感触的数据更容易被滥用。(2)多动一下鼠标,继续深入调查。(3)接受数字的不确定性,数字只能显示一个大致的轮廓,那些固守信念的人永远不会接受新的信息,也不是好奇心很重的人。(4)警惕数字背后的利益冲突,先弄清楚,这份数据是谁提供的?数据的结果与此人存在利益关联吗?

值得关注的是,为了更好地帮助读者识别新闻中的数字正确与否,书中最后一章还提供了一份包含6个问题的核对清单,提升了该书的实操性,可以说是全书内容浓缩的精华。

阅读全文

与数据如何误导了我们豆瓣相关的资料

热点内容
数据透视为什么同品种有好几行 浏览:643
什么微信小程序容易做 浏览:820
卸载小米运动后如何清空数据 浏览:947
在中国市场哪里可以买到球衣 浏览:224
怎么申请国家技术奖励 浏览:968
武汉兴旺生物技术发展怎么样 浏览:750
三星应用程序强制停止如何开启 浏览:752
嘉定区什么是建筑施工市场价格 浏览:230
菜市场如何打假 浏览:202
什么是龙骨船技术 浏览:245
otc机器人怎么查看原有程序 浏览:947
交易猫需要投保多少 浏览:934
阀门的技术优势怎么写 浏览:761
信息资源管理方式包括什么 浏览:395
水果消费市场有多少 浏览:678
手机微信博云学小程序怎么登录 浏览:793
口罩出口信息怎么看 浏览:860
产品防伪数码是什么意思啊 浏览:161
市场营销有哪些应用 浏览:318
花喜代理怎么加盟 浏览:41