A. 《数据如何误导了我们》:数字只是我们理解现实的一种工具而非事实
文丨云海
格罗夫纳(Charles Grosvenor)曾经说过:“ 数字不会说谎,但说谎的人会玩弄数字。 ”大数据时代,数据在我们的日常生活中几乎无处不在。然而,诸如美国多次民调的预测与最终总统选举结果相左的事实一再提醒我们,数据在看起来准确、清晰、客观的表象下面,真实的情况往往可能是大相径庭的。
荷兰计量经济学家、数据分析记者桑内·布劳(Sanne Blauw)在《数据如何误导了我们 : 普通人的统计学思维启蒙书》一书中就指出,许多数据根本没有表面上看起来那样客观公正,反而常常是被人有意操纵来误导我们。
人们大规模使用数据的历史,始于19世纪,南丁格尔就是世界上最早用图表显示数据变化的人之一。得益于数字标准化、大规模数据采集和数据分析这三个重要发展阶段,南丁格尔等人才能够在数字风潮兴起的时代,体验到数据客观、有说服力的好处。
然而,数字标准化、大规模数据采集、数据分析这三个至关重要的步骤,并不总能被永远正确地执行。一旦出错,往往就会导致严重的错误,这是数字的坏处。作者用智力测试的案例, 向我们展示了数字的局限性:数字背后隐含着人们的价值判断;并非所有事物都能被量化;衡量同一件事的方法有许多种;有很多事情数字并不会告诉我们。
我们测量一个人的智力水平时,需要借用智商这个抽象的概念。为了测量智商,首先需要对它进行标准化,也就是需要研究者去选择一些测量智商的指标。这样操作的后果是,测量得出的数字可能是客观的,但在标准化背后的人为决定,则往往带有主观色彩,导致测量出来的结果与客观真实情况可能相距甚远。
其中的原因之一是 ,人们可以采取各种不同的方法或口径来测量同一个概念 。比如,联合国粮食及农业组织(FAO)曾将“饥饿”定义为:一个人在一年内摄取的卡路里过少,即为营养不良。2012年,FAO又提出了另外一种定义的饥饿的计算模式,最后得出的数据也不一样。这就造成了一种现象,全球饥饿人数在不同的情况下,可能出现增长或减少两种截然不同的结果。也就是说, “饥饿”的情况如何,很大程度上取决于你如何定义“饥饿” 。
同样的情况也出现在智商的例子里。在过去几十年里,智力测试的内容每隔一段时间就会更新一次。这就出现了一个令人惊讶的结论:人类的智商在19世纪是逐渐升高的。而这个结论的荒谬之处在于,如果用当前的衡量标准重新计算,那么,前几代人的得分都在70分附近,而这个数值意味着智障。
同时,作者还在书中反复强调,之所以不要盲信数字,还因为 如何解释数字背后的意义,取决于数字使用者的理念或需求 。2017年,烟草巨头菲莫公司曾宣布每年向一个名为“无烟世界”的基金会捐资8000万美元,由于烟草业与公共卫生之间存在的根本利益冲突,此举引起了世界卫生组织的强烈反应。因此,作者提醒我们,数字不等同于事实,数字只是我们理解现实的一种工具。
那么,我们应该如何解读数字,才能避免被数据误导呢? 作者在揭示获取数字的调查统计过程中可能犯的6个关键错误(第三章)后,提供了几个鉴别数据是否可信的方法:(1)问问自己:”对于这个数字,我的感受是什么?“,因为那些容易引起人们有所感触的数据更容易被滥用。(2)多动一下鼠标,继续深入调查。(3)接受数字的不确定性,数字只能显示一个大致的轮廓,那些固守信念的人永远不会接受新的信息,也不是好奇心很重的人。(4)警惕数字背后的利益冲突,先弄清楚,这份数据是谁提供的?数据的结果与此人存在利益关联吗?
值得关注的是,为了更好地帮助读者识别新闻中的数字正确与否,书中最后一章还提供了一份包含6个问题的核对清单,提升了该书的实操性,可以说是全书内容浓缩的精华。
B. 为什么有人用数据分析来欺骗别人
数据分析即使在完全真实,不造假的情况下,也是可以欺骗人的。结合我个人写论文经历谈谈这个事。
(1)常识有的时候是不可靠的
由于在生活实践中,常识有时是不太可靠的,人总会产生一些脱离开事实的错觉,所以很多人会以为数据分析更加可靠。然而这又成了一种错觉。
(2) 我们以为数据分析可靠,但是数据分析结果的展示可以有意的误导读者。比如使用图表来展示最后结果,可以通过原点的变化,和坐标轴的变化使数据结果看起来达到我想要的效果。
(3) 数据分析表面上看是冷冰冰的数,其实从数据的来源,收集,统计来看,无一不是人的手在进行。比如说考研辅导班分析,老师们近年压中了多少题。有的老师仅在考研辅导班上过一次课,就算做辅导班老师。怎么算“压中”?我说19大是考研热点问题,这也算“压中”。考研辅导班又分析,考研成功率。有的人只来过一次,考上清华了,这也算考研辅导班学生考上清华的数据。再比如我国城市居民收入调查。所谓“城市”,指的是北上广,还是哈尔滨、长春,还是铁岭、大石桥?在北京调查的话,是去高级住宅区,还是去蚁族生活区?
总结:人们以为常识不可靠,愿意相信数据。但数据也是人手所做的,也不可靠。圣经云,人心诡诈。自然会按自己所想的制造统计结果。
C. 怎样有效识别数据分析模型中的认知陷阱
避免误导:怎样识别数据中的认知陷阱?
这一篇看看怎么防止别人操纵数据来误导我们。
首先要澄清一点,虽然我们使用了“操纵数据”这个说法,但是我们不关心动机问题,到底是有意欺骗、存心误导,还是水平不够犯了错误,我们不做判断和分别。
我们就是从数据思维的角度,看看如何防止被误导,不管对方是有意的,还是无意的。
还要澄清的一点是,我们这里讨论的都是数据是真实的,只是被错误的使用,造成了误导,不包括伪造数据的情况。
举个例子:
有一家印度的承包商接受印度政府的委托,负责为难民提供食物保障,包括提供日用品和生活保证品。
但是,由于没有难民的确切人数,所以这家承包商说要多少钱,政府就得掏多少钱。可是支出看起来实在是太大了,于是就有人建议请统计学家帮忙。
统计学家瞄准了三样东西——大米、豆类食品和盐。
如果一个人群的人数是稳定的,那么这三种食品的消费量就是基本稳定的,因此它们可以交叉印证。结果发现,盐估计出来的人数最少,大米估计出的人数最多。因为盐的价格低、总量少,所以没有人在这个地方夸大。而大米价格高、总量大,所以就有动机在这个地方做假账。
这个案例就是通过伪造数据来达到非法的目的,是技术水平最低的骗子。这就不属于我们在这里讨论的内容。
利用真实的数据,通过各种操作手段误导人,才是技术含金量比较高的工作。我们在这里主要讨论这个方向。
通过操纵数据来误导受众大致有三个方向,分别是操纵数据的使用、操纵数据的产生和操纵数据的解释。
操纵数据的使用――
这方面的案例太多了,给你举几个例子:
用平均数掩盖分布:
“某公司有3003名股东,平均每人持股660股。”误导你的真相是这样的:公司总共200万股,其中3名大股东持有3/4,其余3000人总共持有1/4。
用百分比掩盖规模:
“霍普金斯大学1/3的女生嫁给了大学老师。”但其实,总共只有3名同学录取,其中1个人嫁给了老师。
用短期波动代替长期效应:
“卫生部最新公布,大雾的一周内伦敦市郊的死亡人数猛增至2800人。”这是因为大雾带来的吗?这个地方平均死亡人数如何?接下来的几周死亡人数又是如何?
遗漏变化的原因:
“最近25年,癌症死亡人数增多。”听起来吓人,但其实很多因素更有解释力。比如,以前很多病因不明的案例现在被确诊为癌症;尸体解剖成为常用方法,便于明确诊断;医学统计资料更全面;易发病年龄段人数增多。还有,现在的人数远远超过从前。
偷换概念――
“某议员提议:我们可以让囚犯离开监狱,去住酒店,这样反而更便宜。因为囚犯一天的费用是8美元,而住酒店只要7美元。”但其实,这里的8美元指囚犯所有的生活费,但是议员拿来比较的仅仅是住酒店的房租。
定义不统一:
几家平台都说自己流量第一,证据是平台播出的电视连续剧收视率第一。但是,各家的定义不一致,有的用平均收视率,有的用单集最高收视率,有的用首播重播合计收视率。
忽略测量误差――
“李蕾的智商101,韩梅梅智商99,所以李蕾比韩梅梅聪明。”但是,任何测量都有误差,结果应该加上一个区间,比如±3%。这样,李蕾和韩梅梅的智商范围有重合,不能断定谁比谁聪明。
差别过小没有现实意义:
“某次大规模的智商测试结果,男生平均106.1,女生平均105.9。”即使这个差异在统计上存在,由于差异过小也没有现实意义。
参照对象不清――
“这款榨汁机的榨汁功能增强了26%。”这是跟谁比?如果是跟老式手摇榨汁机比呢?
比较时忽略基数:
“高速公路晚上7点的事故是早上7点的4倍,所以早上出行生还几率高4倍。”其实,晚上事故多,只是因为晚上高速公路上的车和人更多。
对象不同强行比较――
“美国和西班牙交战期间,美国海军的死亡率是9‰,同时期纽约市居民的死亡率是16‰,所以海军士兵更安全。”其实,这两组对象不可比。海军主要是体格健壮的年轻人,而城市居民包括婴儿、老人、病人,这些人在哪里死亡率都高。
变换基数让人产生幻觉:
50%折扣再打20%折扣,会让你以为有70%的折扣。实际上,折扣只有60%,因为后面20%的折扣是用5折后的价格计算的。
用数字游戏控制听众感觉:
投资回报率第一年为3%,第二年为6%。下面两个说法都是对的:1.提高了3个百分点;2.增长高达100%。怎么呈现,取决于你要让听众感受到什么。
操纵数据的产生――
这方面的案例也很多,比如:
算法采用的规则有差异:
试验用两种算法来判断交通违规行为:一种是“严格遵守法律条文”,简称条文版,车速一过线就开罚单。另一种是安全原则,如果车速在当时的状况下是安全的,就不判罚。比如周围没有车,或者大家速度都很快,你慢下来就是一个移动的石头,反而对安全不利。这种规则能“准确反映法律意图”,因此简称意图版。
试验做下来,同样的交通状况,条文组的算法开出了500张罚单,而意图组的算法只开出了1张罚单。你说,交通违规的现象是严重还是不严重呢?
实验条件设置错误:
有一份得了省级奖的论文,说阿胶的营养效果好,做法是先把老鼠搞到营养不良,然后给老鼠吃阿胶,结果各种数据都优于对照组。看起来,阿胶似乎真的有效,但是一看对照组,只给那些营养不良的老鼠喝清水。这相当于给东西吃和不给东西吃的区别,而不是阿胶和普通营养方式的区别,实验结论当然不可靠。
为了防止杠精,强调一下,是说这篇论文的结论不可靠,不是讨论阿胶有没有营养。
提问的次序影响回答者的选择:
调查显示,向女性调查时,如果先提问关于服装广告的问题,再问一般性广告的问题,女性对广告的态度就更多是正面的。
向一般人调查,类似的次序问题也存在。比如,先问婚姻生活是不是幸福,再问整体生活是不是幸福,回答者会自动把自己婚姻生活的感受排除,评价整体生活。反过来则相反。
操纵数据的解释――
还是举几个例子给你感受一下:
归因错误:
一位飞行教官非常自信地说,“批评使人进步,表扬使人退步。”因为教官发现,只要他表扬了学员,第二天学员的表现肯定会变差,批评学员就会反过来,第二天的表现会更好。
实际上,这是一个回归现象。如果今天学员达到了被表扬的程度,就说明他今天的表现超过了自己的平均线,第二天向自己的平均水平回归是正常的。
因果关系不成立:
在印度,研究人员发现,看电视的人对男女平等的态度更加积极。这指示我们应该普及电视来改变印度农村地区对女性的态度吗?
真实的情况是,教育程度好的人才买得起电视,而教育程度好的人对男女平等的态度更开明。经常看电视与男女平等积极的态度之间不是因果关系,而是伴随关系。
理论适用错误:
网上有段子说,汉朝是8000人养1个公务员,唐朝是3000人,明朝是2000人,清朝是1000人,而今天是18个人,暗示这个时代的公务员太多了。
这个错误是没有条件地按比例放大或缩小。随着人口规模的上升,公共服务需要的人数不是按线性比例增加的,应该是按几何程度增加的。只有在合理的理论框架下,才能评价18个人养1个公务员是多还是少……
D. 《错觉:AI如何通过数据挖掘误导我们》pdf下载在线阅读全文,求百度网盘云资源
《错觉:AI如何通过数据挖掘误导我们》网络网盘pdf最新全集下载:
链接: https://pan..com/s/1wgp-42B8YmdkhdLwJFX05w
E. 数据也会说谎 常见的数据造假三种形态
数据也会说谎:常见的数据造假三种形态
日常生活工作中,处处都会与数据打交道,但你知道数据是会“说谎”的,即你看到的数据结果并不是事实。本文介绍一些常见的说谎场景以及如何避免。
一、图表欺骗
图表通常用来增强需要文字和数据的说服力,通过可视化的图表更容易让受众接受信息。但图表有时候会表现的不是数据的本质:
1.图表拉伸
如果没有特殊用途,通常图表的长(横轴)与高(纵轴)的比例为1:1到1:2之间,如果在这个范围之外,数据现实的结果会过于异常。比如:
2.坐标轴特殊处理
在很多场合下,如果两列数据的取值范围差异性过大,通常在显示时会取对数,这时原来柱状图间的巨大差异会被故意缩小。通常,严谨的分析师在讲解之前会进行告知。比如:
3.数据标准化
数据标准化也是一个让数据落在相同区间内常用的方法,常用Z标准化或0-1标准化,如果不提前告知,可能会误以为两列数据取值异常接近,不符合实际业务场景,比如:
隐秘层次:★★☆☆☆
破解方法:询问分析师的图表各个含义,了解基本图表查看常识。
二、数据处理欺骗
数据处理中的欺骗方法通常包括抽样方法欺骗、样本量不同、异常值处理欺骗等。
1.抽样方法欺骗
整体样本的维度,粒度和取数逻辑相同的情况下,不用的样本抽样规则会使数据看来更符合或不符合“预期”。比如在做用户挽回中,假如做的两次活动的抽样样本分别是最近6个月未购物和最近6个月未购物但有登陆行为的用户,不用做什么测试,基本上可以确定后者的挽回效果更佳。要识破这个“骗局”只需要询问数据取样方法即可,需要细到具体的SQL逻辑。
2.样本量不同
严格来说样本量不同并不一定是故意欺骗,实践中确实存在这种情况。(遇到这种情况可以用欠抽样和过抽样进行样本平衡)样本量不同分为两种情况:
样本量数量不同。比如要做效果差异对比,第一步是做效果比对,假如两个数据样本量分别是几千和几万的级别,可比性就很小。尤其是对于样本分布不均的情况下,数据结果可信度低。
样本主体不同。这是非常严重的数据引导错误,通常存在于为了达到某种结果而故意选择对结果有利的样本。比如做品类推广,一部分用户推广渠道为广告,另一部分是CPS可以遇见相同费用下后者的效果必然更好。
相同样本不同的客观环境。比如做站内用户体验分析,除了用随机A/B测试以外,其他所有测试方法都没有完全相同的客观环境,因此即使选的是相同样本,不同时间由于用户,网站本身等影响,可信度较低。
3.异常值处理欺骗
通常面对样本时需要做整体数据观察,以确认样本数量、均值、极值、方差、标准差以及数据范围等。其中的极值很可能是异常值,此时如何处理异常值会直接影响数据结果。比如某天的销售数据中,可能存在异常下单或行单,导致品类销售额和转化率异常高。如果忽视该情况,结论就是利好的,但实际并非如此。通常我们会把异常值拿出来,单独做文字说明,甚至会说明没有异常值下的真实情况。
隐秘层次:★★★☆☆
破解方法:在跟数据分析师沟通中,多询问他们在数据选取规则,处理方法上的方法,如果他们吞吞吐吐或答不上来,那很有可能是故意为之。同时,业务人员也要增强基本数据意识,不能被这种不可见的底层错误欺骗。
三、 意识上的欺骗
这种欺骗是等级最高也是最严重的欺骗和错误,通常存在于数据分析师在做数据之前就已经下结论,分析过程中只选取有利于证明其论断的方法和材料,因此会在从数据选择,处理,数据表现等各个方面进行事实上的扭曲,是严重的误导行为!数据分析师需要有中立的立场,客观的态度,任何有立场的分析师的结论都会失之偏颇。
隐秘层次:★★★★★
破解方法:在跟该分析师沟通中,查看其是否有明显立场或态度,如果有,那么该警惕;然后通过上面的方法逐一验证。
综上,当你遇到以下数据情形,就需要警惕数据的真实性了:
数据报告从来不注明数据出处,数据时间,数据取样规则,数据取得方法等。现在市场上很多报告都属于这一类。
数据报告在做市场调研中说明全样本共1000,其中北京可能只有100,基于这100个样本出来的结论显然不可信。事实上很多市场研究报告就是这样出来的。
数据报告中存在明显的观点,对于事物的分析只讲其优势或劣势,不全面也不客观。现在很多互联网分析师就是属于这类,大家注意辨别。
以上是小编为大家分享的关于数据也会说谎 常见的数据造假三种形态的相关内容,更多信息可以关注环球青藤分享更多干货
F. 直播卖货数据造假存在造假现象吗,这样的错误数据对消费者存在哪些误导
直播带货数据造假的现象确实存在,而这样的错误数据,会让消费者误认为产品的质量和销量非常出色。
随着网络带货直播时代的到来,很多消费者都会选择在直播间当中进行消费,只不过直播带货数据有很多都存在着虚假成分,如果看到了这些虚假的带货数据,那么消费者就很有可能会吃亏上当。
虽然网络带货直播非常受欢迎,但这并不代表着每位带货主播都能够创造非常好的销量成绩,只不过为了吸引消费者的关注,这些带货主播就会刻意制造虚假的带货数据。因为这些虚假的带货数据能够掩盖带货主播人气较低的问题,同时也能够给消费者带来错误的引导。
在网上购买产品时,我们必须要擦亮自己的眼睛,虽然网络在和受到了全民欢迎,但这并不意味着带货主播能够轻易损害消费者的权益。
G. 关于数据分析的两大误区
关于数据分析的两大误区
平时无论是进行用户调研、产品运营还是竞品分析,都少不了对于数据的分析,如果项目中出现某些分歧谁也无法说服谁时,很多时候也都是拿数据说话,可见在开发产品的时候,对数据的统计与分析十分重要。大家都说数据是客观的,但其实数据受背景环境、统计者、统计方法、分析者看法等多重因素影响,以致我们在统计和分析时却常常陷入误区,得不到正确的答案。下面简单说一下关于数据的两个常见误区。
误区一:把某一类型数据当做全部数据导致分析结果错误
先说个小故事:二战时英国空军希望增加飞机的装甲厚度,但如果全部装甲加厚则会降低灵活性,所以最终决定只增加受攻击最多部位的装甲。后来工作人员经过对中弹飞机的统计,发现大部分飞机的机翼弹孔较多,所以决定增加机翼的装甲厚度。后来一个专家说:“可是机头中弹的那些飞机就没有飞回来”。
这个故事里本应是对全部飞机进行分析,但统计样本没有包含已经损毁的飞机,所以得出的结论只是根据部分数据,或者说是根据具有同样特征(受伤)的某一类数据推论出的,并不能代表全部类型的数据,所以得出的结果很可能是错误的。
再看一个例子:前一阵我为了分析人人网,想看看人人网现在的用户访问量是什么状态,于是选择了PV作为观测指标,通过alexa来看人人网的PV在过去一年中呈明显的下降态势,这也印证了我的预期,于是就以此为论据进行了分析。可是后来发现,alexa仅仅统计通过WEB的访问量,而用户移动端的登录并不在统计范围之内!这两年智能手机普及迅速,移动端登录也非常普遍,缺失这部分数据意味着前面统计的数据基本没有意义,因为WEB端访问量的下降有可能是用户访问人人网次数降低,同时也有可能是由PC端向移动端迁移,这个统计就不能作为论据出现了。
从上面这个例子可以看到,我只统计了WEB端的访问情况,认为这就是人人网全部访问量,而忽略了移动端,从而推出了错误的结果。另一个问题就是由于我已经有预期(人人网访问量下降),那么我在为这个结论找寻相关的论据,当找到符合我结论的论据时很容易不去做更多判断就选择有利于自己的数据,这也是数据统计人员常见的问题。
用某一类型数据代替全部数据会误导我们做出错误的判断,在统计时一定要注意这点。这一方面需要意识,在统计、分析数据时要时刻想着还有没有其他的情况,还有没有我们没有想到的数据类型,这些数据是不是能代表全部类型,尝试站在更高的角度去解读这些数据,而不是拿到数据后立刻就盲目分析。另一方面需要知识的累积,比如你知道alexa是如何进行统计的,那么很轻易就会想到还要考虑移动端的情况。知识的累积有助于我们做出准确的判断,这些知识与经验都是从阅读或实践中得来的,平时多做,慢慢累积,时间久了自然会看得更全面。
误区二: 鲜明事件让我们夸大了偶然因素
鲜明的事件更容易占据我们的视线,从而让我们高估事件发生的概率。
比如从年度统计中看到,某基金近两年的收益率达到100%,有某某明星操盘手等等,人们就会争相去购买该基金,同时也会让人们认为买基金就是可以赚钱的。而实际上,绝少有基金可以常年保持这样的收益率,近两年收益前五名的基金很可能在五年后收益率就排行倒数,而世面上大部分基金也无法跑赢大盘,不过人们在记忆中依然会认为买基金确实很赚钱,当年XXX两年益100%呢。两年收益达到100%只是偶然情况,但却由于事件太过鲜明而长久驻扎在人们的心智中。
类似的事还有很多。比如富士康N连跳,大家都觉得这么多人跳楼,富士康肯定太黑暗了,但大家却没有注意富士康员工大概有37万人,按12连跳的话自杀率不到十万分之四,而全国的平均自杀率为十万分之十五, N连跳自杀率远低于全国自杀率,可见富士康12连跳实际上是一个社会问题,而不仅仅是一个企业的问题,我们太过注重鲜明的事实却忽略了背后整体的概率。还有前两天美国波士顿爆炸案死亡3人,微博上各种祈福,可是阿富汗、伊拉克等国家几乎每天都面临着这些问题,只是由于媒体不会整天报道那里的消息,而天天出现的袭击也麻痹了人们的神经,所以我们只会关注鲜明的波士顿爆炸,而对其他地区天天发生的事情无动于衷。另外比如你周围有人买股票赚了好多钱,可能你也会很想投身股市一试运气,而忽略了散户8赔1平1赚的整体概率。你看到了各种创业成功者的报道,认为自己也可以尝试创业,毕竟成功概率好像也不低。但你不知道那些不成功的人基本没有被报道的机会,而实际上创业成功的人可能不到1%。
说了这么多,其实就是太过鲜明的偶然事件会让我们忽略背后一直存在的整体概率。看到这种数据的时候,不要太过情绪化,你所看到的数据或事件可能只是个例,并不能代表大多数,可以去查查历史情况或平均情况,去找找沉默的用户或数据,切忌轻易就做出判断和决定。要理性看待这些偶然事件,既不盲目跟随,也不对此嗤之以鼻,在明确整体概率的情况下,剔除偶然因素,分析这些偶然事件背后是否存在着某些值得借鉴的地方,从而吸收到自己产品或项目中,以便使自己的产品或要处理的事情有可能成为市场中下一个“偶然事件”。
以上是小编为大家分享的关于关于数据分析的两大误区的相关内容,更多信息可以关注环球青藤分享更多干货
H. 人们可能会犯的7个数据错误
人们可能会犯的7个数据错误
数据正在成为现代企业的一个更重要的工具,几乎可以作为一种货币,它可以从衡量营销活动的有效性到评估员工绩效等方面促进一切。但许多企业家认为数据本身就是有价值的。企业拥有的数据越多越好,如果有的话,企业会做出更好的决定。
事实上,收集数据只是开展业务过程的第一步,单凭数据就无法对企业业务进行全面准确的描述。
如果企业想要获得成功的话,也需要能够有效地收集、组织、解释、展示这些数据,而大多数人都犯了阻止他们这样做的严重错误。
最常见的错误
企业家和数据分析师经常犯这些严重的错误:
1.没有收集足够的数据。采用“越多数据越好”的理念来运行业务是一个糟糕的主意,因为它没有将数量与优先级相区分。但是,在开始信任这种结论之前,企业需要最少量的数据。例如,如果企业有1000个客户,则无法选择其中的2个进行访问,因此企业需要一个更大、更具代表性的样本量。
2.收集错误的数据类型。企业也可能收集错误的数据类型。如果企业经营的是一家汽车维修店,却了解目标人群的饮食习惯,那么这些信息对其不会有帮助。当然,这是一个令人震惊的例子,但原理是一样的。企业需要收集数据点,以便你得出结论并采取行动,而不是为了收集数据而收集数据。
3.使用错误的仪表板。企业的仪表板对其结果的影响比人们想象的要大。这些工具负责将企业的所有数据收集在一个地方,为其提供强化数据和生成报告,并为多个团队成员提供访问权限。有这么多的选项可供选择,很难说哪一个是企业业务的正确选择,但是如果企业想要获得最好的工具,则需要通读所有这些选项。否则,企业可能会花费过多的时间来培训新员工,或者生成没有强调关键变量的乏味报告。
4.容许偏见扭曲自己的结论。人的思想有很大的缺陷,因此在分析数据时相信自己的直觉通常是一个坏主意。人们很容易出现一系列的认知偏差,从确认偏差到生存偏差,甚至可能很快扭曲人们面前的客观信息。最好是学习这些认知偏差,并找出弥补方法,所以人们的结论不会混乱或扭曲。
5.比较苹果和橙子。大多数新手试图在没有进行比较的时候达到目的,将一个选择的数据与另一个选择的数据相比较。这种“苹果对橙子”的比较可能会导致错误的结论,所以最好尽可能地比较自己的数据集。
6.未能隔离变量。现代应用程序通常需要审查数十个甚至数百个不同的变量,尤其是在营销行业。当企业发现一个相关性,如内容长度和访问者之间的关系时,很容易得出因果关系,但是这是很危险的(有时候也是搞笑的)。相反,企业需要隔离正在使用的变量,以便可以证明或反驳因果关系,并了解更多关于数据点之间的关系。
7.提出错误的问题。数据本身不会给企业任何结论。企业的图表和图形通常不会带来一个明显的突破。相反,企业需要提问您的数据,并使用所需的工具来发现答案。如果所问的是错误的问题,无论是误导性的还是不可行的,数据的性能如何,或者工具的直观程度如何,都无关紧要。
数据并不完美
数据是如此有价值以至于已经变得商品化,这是事实,但除非你知道如何有效地使用数据,否则它实际上是毫无价值的。企业的方法,组织方法,甚至是其解释总是会出现问题,但是企业对最佳实践的熟悉程度越高,就越有责任有效地利用其数据,企业就越有可能获得准确、有价值的结论。不要认为自己的努力正在发挥作用,挑战他们,并不断调整自己的方法,发现隐藏的偏见,提出更好的问题,并从分析工作中获得更多的价值。
I. 大数据时代,容易被数据误导的八个问题
现在做销售、市场的人如果不懂得数据分析,用数据说话那真是落伍了。没见很多企业领导开口就是“拿数据给我看,没有数据我怎么做决策啊?”。可见数据分析在当今的企业管理中占据做非常重要的地位,并且数据分析师也是未来十年最有前途的十大职业之一。
先看一个利用数据忽悠人的案例: 在美国和西班牙交战期间,美国海军的死亡率是千分之九,而同时期纽约居民的死亡率是千分之十六。后来海军征兵人员就用这些数据来证明参军更安全。你认为这个结论正确吗?当然不正确,这两个数字根本就是不匹配的,当兵的都是身强力壮的年轻人,而居民的死亡率是包括老弱病残的数据,这些人相对来说,死亡率是高的。所以正常应该是用同年龄段的海军数据和纽约居民来对比。
其实你发现9‰和16‰根本就不具有可对比性。
企业管理人员对“假”数据是深恶痛疾。原因不言而喻:“假数据”造成资源浪费,决策失误,贻误战机等等。简单总结一下“有问题数据”的几个方面,帮助大家早日练成火眼金睛。需要提醒大家的是“有问题的数据”并不代表一定是“假”的数据,因为有的数据是真的,但是结论确实“假”的。常见的利用数据来
误导大家的情况有以下几种:
一、随意制造“假”的数据来忽悠客户或消费者
请原谅我用了“制造”这个动词。
这种情况随处可见,对于某些人或组织来说,数据的严肃性根本就是一句空话,他们是要什么数据就编什么数据,他们的名字叫”编“委。对于这种情况,我们一定要多问几个为什么,问清楚数据源就可以了。记住“无数据(源)就没有真相”。比如报纸的发行量永远是世界上最难解的谜题,我也不知道答案,我只知道:
1、媒体自己公布的发行量实际上是他们的最高发行记录,一般来讲大家习惯去掉“最高”二字
2、当年某些报纸为了创造最高发行量,直接把报纸从印刷厂拉倒垃圾站,这种情况是公然而无耻的作假,后被禁止
大家看看这句话中的数字是否有错误:公司业务员小强有24个客户,4月不重复客户购买比率为78%(备注:不重复客户购买比例=有订单的客户总数/总客户数)。答案是错误的,因为永远算不出来78%这个数据。
二、定向取值问题
这种一种具有隐蔽性和欺骗性的手段。何为定向取值?就是先假定一个结论,然后选取最利于这个结论的人群进行市场调查或研究,最后号称这个规律或结论具有普遍性。比如平均工资,我要让他高,就去写字楼访问,我要让他低,那就如劳务市场吧!这种方法是一种骗人的伎俩,要不得,可是很多人非常热衷!
把这种方法用到极致的是市场调查公司或某些政府机关。比如某年某地区说要在半年内将房价降价多少以上,半年以后他们真的做到了,可是老百姓并没有感到房价下降的趋势,为什么呢?原来他们玩了个数字游戏,半年前的样本是城区的房价平均,半年后加上了郊区的房价后取平均。
大部分市场调查公司是定向取值的热衷者。很多企业的老板会要求市调公司按照他们的结论来采样调查,然后用这个数据去做广告、公关,欺骗消费者。有些公司的调查数据是真的(即调查的样本数足够多,且没有定向选取调查对象),但结论却是假的。因为企业也可以定向取结论。比如(此事例是为了说明问题,假设的数据,千万不要当真),比如某种牙膏宣传:使用该品牌的牙膏后将使蛀牙减少23%,这个数据是市场调查后的数据。当然这个数据对你一定是有诱惑力的。因为你认为减少的反义词就是没减少!可你是否知道他的背后有可能是这样的:23%的人蛀牙减少,40%的人没有任何反应,37%的人蛀牙反而增多了(只是这种可能性不大)。
看看这幅画你就懂了
三、田忌赛马
田忌赛马的故事大家想必都听说过,利用田忌赛马来误导的情况也是比较多见的。看一个例子,2010年底某知名B2C网站搞了一个“全民疯抢”活动,活动结束后,某人在微博上写道:就成交数据看,在大促四日里的日均交易额已经远远超过了09年度国美、苏宁和百联三家线下大卖场的总和日均销售额。就这句话来说是没有问题的,错在前后数据没有可对比性,用自己促销时的最大值和别人的常规日销售来做对比,这样的对比没有任何意思。这个就好像刘翔参加残奥会比赛得了冠军又能如何?根本就不是一个组别。
再来看一组数据:2010年12月20日到12月26日电影《非诚勿扰2》和《让子弹飞》的周票房分别为2.4亿和2.1亿(备注:非2是12月22日上市,让是12月16日上市)。从这两个数据是否我们可以得出这样的结论:“非2”票房大大超越“让”的票房。从纯数据的角度来说,实际上这两个数据没有可对比性,不匹配。因为12.20-12.26是“非2”上影的第一周,是“让”上影的第二周。正常大片的票房高点都是在第一周。如果我们单看他们第一周的票房数据:让上市第一周4天票房共2.9亿,平均每天0.7亿,非2上影前5天票房2.4亿,平均票房约0.5亿元,“让”票房反而高很多!
田忌赛马实际上就是在选择数据的结论。数据的匹配性是我们时刻都需要提防的,这方面是极易犯错误的,有时候我们看起来非常合理的对比也有可能是非常不合理的。
四、数据分析的系统误差
数据分析有的时候是人为因素影响,有的时候还可能有系统误差出现。举说来说:假设人事部要在一个公司内部调查一下大家对新来的总经理的看法,选项有五个:非常喜欢、喜欢、没感觉、不喜欢、非常不喜欢。要求匿名投票。收回选票后结果如下:非常喜欢25%,喜欢40%,没感觉20%,不喜欢10%,非常不喜欢5%。由于是匿名投票你可能认为这个数据没问题了吧(假设没有拍马屁的现象)。
我的回答是不一定。因为很可能还有很多员工根本就没有投票。他们不投票的原因有可能是不知道该调查或忙没来得及投票等,还有就是这些弃权票很可能都是要投“不喜欢”的人,他们不想表达自己的真实想法,所以他们有“目的”的放弃了投票。想想联合国大会的弃权票吧,有点这个意思的吧。另外如果这个调查的五个选项改成如下排序:非常不喜欢、不喜欢、没感觉、喜欢、非常喜欢。还是刚才投完票的那些人来投,结果可能不一样哦!
强力推荐阅读文章
年薪40+W的大数据开发【教程】,都在这儿!
大数据零基础快速入门教程
Java基础教程
web前端开发基础教程
linux基础入门教程学习
大数据工程师必须了解的七大概念
云计算和大数据未来五大趋势
如何快速建立自己的大数据知识体系