A. 大數據時代,容易被數據誤導的八個問題
現在做銷售、市場的人如果不懂得數據分析,用數據說話那真是落伍了。沒見很多企業領導開口就是「拿數據給我看,沒有數據我怎麼做決策啊?」。可見數據分析在當今的企業管理中占據做非常重要的地位,並且數據分析師也是未來十年最有前途的十大職業之一。
先看一個利用數據忽悠人的案例: 在美國和西班牙交戰期間,美國海軍的死亡率是千分之九,而同時期紐約居民的死亡率是千分之十六。後來海軍徵兵人員就用這些數據來證明參軍更安全。你認為這個結論正確嗎?當然不正確,這兩個數字根本就是不匹配的,當兵的都是身強力壯的年輕人,而居民的死亡率是包括老弱病殘的數據,這些人相對來說,死亡率是高的。所以正常應該是用同年齡段的海軍數據和紐約居民來對比。
其實你發現9‰和16‰根本就不具有可對比性。
企業管理人員對「假」數據是深惡痛疾。原因不言而喻:「假數據」造成資源浪費,決策失誤,貽誤戰機等等。簡單總結一下「有問題數據」的幾個方面,幫助大家早日練成火眼金睛。需要提醒大家的是「有問題的數據」並不代表一定是「假」的數據,因為有的數據是真的,但是結論確實「假」的。常見的利用數據來
誤導大家的情況有以下幾種:
一、隨意製造「假」的數據來忽悠客戶或消費者
請原諒我用了「製造」這個動詞。
這種情況隨處可見,對於某些人或組織來說,數據的嚴肅性根本就是一句空話,他們是要什麼數據就編什麼數據,他們的名字叫」編「委。對於這種情況,我們一定要多問幾個為什麼,問清楚數據源就可以了。記住「無數據(源)就沒有真相」。比如報紙的發行量永遠是世界上最難解的謎題,我也不知道答案,我只知道:
1、媒體自己公布的發行量實際上是他們的最高發行記錄,一般來講大家習慣去掉「最高」二字
2、當年某些報紙為了創造最高發行量,直接把報紙從印刷廠拉倒垃圾站,這種情況是公然而無恥的作假,後被禁止
大家看看這句話中的數字是否有錯誤:公司業務員小強有24個客戶,4月不重復客戶購買比率為78%(備注:不重復客戶購買比例=有訂單的客戶總數/總客戶數)。答案是錯誤的,因為永遠算不出來78%這個數據。
二、定向取值問題
這種一種具有隱蔽性和欺騙性的手段。何為定向取值?就是先假定一個結論,然後選取最利於這個結論的人群進行市場調查或研究,最後號稱這個規律或結論具有普遍性。比如平均工資,我要讓他高,就去寫字樓訪問,我要讓他低,那就如勞務市場吧!這種方法是一種騙人的伎倆,要不得,可是很多人非常熱衷!
把這種方法用到極致的是市場調查公司或某些政府機關。比如某年某地區說要在半年內將房價降價多少以上,半年以後他們真的做到了,可是老百姓並沒有感到房價下降的趨勢,為什麼呢?原來他們玩了個數字游戲,半年前的樣本是城區的房價平均,半年後加上了郊區的房價後取平均。
大部分市場調查公司是定向取值的熱衷者。很多企業的老闆會要求市調公司按照他們的結論來采樣調查,然後用這個數據去做廣告、公關,欺騙消費者。有些公司的調查數據是真的(即調查的樣本數足夠多,且沒有定向選取調查對象),但結論卻是假的。因為企業也可以定向取結論。比如(此事例是為了說明問題,假設的數據,千萬不要當真),比如某種牙膏宣傳:使用該品牌的牙膏後將使蛀牙減少23%,這個數據是市場調查後的數據。當然這個數據對你一定是有誘惑力的。因為你認為減少的反義詞就是沒減少!可你是否知道他的背後有可能是這樣的:23%的人蛀牙減少,40%的人沒有任何反應,37%的人蛀牙反而增多了(只是這種可能性不大)。
看看這幅畫你就懂了
三、田忌賽馬
田忌賽馬的故事大家想必都聽說過,利用田忌賽馬來誤導的情況也是比較多見的。看一個例子,2010年底某知名B2C網站搞了一個「全民瘋搶」活動,活動結束後,某人在微博上寫道:就成交數據看,在大促四日里的日均交易額已經遠遠超過了09年度國美、蘇寧和百聯三家線下大賣場的總和日均銷售額。就這句話來說是沒有問題的,錯在前後數據沒有可對比性,用自己促銷時的最大值和別人的常規日銷售來做對比,這樣的對比沒有任何意思。這個就好像劉翔參加殘奧會比賽得了冠軍又能如何?根本就不是一個組別。
再來看一組數據:2010年12月20日到12月26日電影《非誠勿擾2》和《讓子彈飛》的周票房分別為2.4億和2.1億(備註:非2是12月22日上市,讓是12月16日上市)。從這兩個數據是否我們可以得出這樣的結論:「非2」票房大大超越「讓」的票房。從純數據的角度來說,實際上這兩個數據沒有可對比性,不匹配。因為12.20-12.26是「非2」上影的第一周,是「讓」上影的第二周。正常大片的票房高點都是在第一周。如果我們單看他們第一周的票房數據:讓上市第一周4天票房共2.9億,平均每天0.7億,非2上影前5天票房2.4億,平均票房約0.5億元,「讓」票房反而高很多!
田忌賽馬實際上就是在選擇數據的結論。數據的匹配性是我們時刻都需要提防的,這方面是極易犯錯誤的,有時候我們看起來非常合理的對比也有可能是非常不合理的。
四、數據分析的系統誤差
數據分析有的時候是人為因素影響,有的時候還可能有系統誤差出現。舉說來說:假設人事部要在一個公司內部調查一下大家對新來的總經理的看法,選項有五個:非常喜歡、喜歡、沒感覺、不喜歡、非常不喜歡。要求匿名投票。收回選票後結果如下:非常喜歡25%,喜歡40%,沒感覺20%,不喜歡10%,非常不喜歡5%。由於是匿名投票你可能認為這個數據沒問題了吧(假設沒有拍馬屁的現象)。
我的回答是不一定。因為很可能還有很多員工根本就沒有投票。他們不投票的原因有可能是不知道該調查或忙沒來得及投票等,還有就是這些棄權票很可能都是要投「不喜歡」的人,他們不想表達自己的真實想法,所以他們有「目的」的放棄了投票。想想聯合國大會的棄權票吧,有點這個意思的吧。另外如果這個調查的五個選項改成如下排序:非常不喜歡、不喜歡、沒感覺、喜歡、非常喜歡。還是剛才投完票的那些人來投,結果可能不一樣哦!
強力推薦閱讀文章
年薪40+W的大數據開發【教程】,都在這兒!
大數據零基礎快速入門教程
Java基礎教程
web前端開發基礎教程
linux基礎入門教程學習
大數據工程師必須了解的七大概念
雲計算和大數據未來五大趨勢
如何快速建立自己的大數據知識體系
B. 《數據如何誤導了我們》:數字只是我們理解現實的一種工具而非事實
文丨雲海
格羅夫納(Charles Grosvenor)曾經說過:「 數字不會說謊,但說謊的人會玩弄數字。 」大數據時代,數據在我們的日常生活中幾乎無處不在。然而,諸如美國多次民調的預測與最終總統選舉結果相左的事實一再提醒我們,數據在看起來准確、清晰、客觀的表象下面,真實的情況往往可能是大相徑庭的。
荷蘭計量經濟學家、數據分析記者桑內·布勞(Sanne Blauw)在《數據如何誤導了我們 : 普通人的統計學思維啟蒙書》一書中就指出,許多數據根本沒有表面上看起來那樣客觀公正,反而常常是被人有意操縱來誤導我們。
人們大規模使用數據的歷史,始於19世紀,南丁格爾就是世界上最早用圖表顯示數據變化的人之一。得益於數字標准化、大規模數據採集和數據分析這三個重要發展階段,南丁格爾等人才能夠在數字風潮興起的時代,體驗到數據客觀、有說服力的好處。
然而,數字標准化、大規模數據採集、數據分析這三個至關重要的步驟,並不總能被永遠正確地執行。一旦出錯,往往就會導致嚴重的錯誤,這是數字的壞處。作者用智力測試的案例, 向我們展示了數字的局限性:數字背後隱含著人們的價值判斷;並非所有事物都能被量化;衡量同一件事的方法有許多種;有很多事情數字並不會告訴我們。
我們測量一個人的智力水平時,需要借用智商這個抽象的概念。為了測量智商,首先需要對它進行標准化,也就是需要研究者去選擇一些測量智商的指標。這樣操作的後果是,測量得出的數字可能是客觀的,但在標准化背後的人為決定,則往往帶有主觀色彩,導致測量出來的結果與客觀真實情況可能相距甚遠。
其中的原因之一是 ,人們可以採取各種不同的方法或口徑來測量同一個概念 。比如,聯合國糧食及農業組織(FAO)曾將「飢餓」定義為:一個人在一年內攝取的卡路里過少,即為營養不良。2012年,FAO又提出了另外一種定義的飢餓的計算模式,最後得出的數據也不一樣。這就造成了一種現象,全球飢餓人數在不同的情況下,可能出現增長或減少兩種截然不同的結果。也就是說, 「飢餓」的情況如何,很大程度上取決於你如何定義「飢餓」 。
同樣的情況也出現在智商的例子里。在過去幾十年裡,智力測試的內容每隔一段時間就會更新一次。這就出現了一個令人驚訝的結論:人類的智商在19世紀是逐漸升高的。而這個結論的荒謬之處在於,如果用當前的衡量標准重新計算,那麼,前幾代人的得分都在70分附近,而這個數值意味著智障。
同時,作者還在書中反復強調,之所以不要盲信數字,還因為 如何解釋數字背後的意義,取決於數字使用者的理念或需求 。2017年,煙草巨頭菲莫公司曾宣布每年向一個名為「無煙世界」的基金會捐資8000萬美元,由於煙草業與公共衛生之間存在的根本利益沖突,此舉引起了世界衛生組織的強烈反應。因此,作者提醒我們,數字不等同於事實,數字只是我們理解現實的一種工具。
那麼,我們應該如何解讀數字,才能避免被數據誤導呢? 作者在揭示獲取數字的調查統計過程中可能犯的6個關鍵錯誤(第三章)後,提供了幾個鑒別數據是否可信的方法:(1)問問自己:」對於這個數字,我的感受是什麼?「,因為那些容易引起人們有所感觸的數據更容易被濫用。(2)多動一下滑鼠,繼續深入調查。(3)接受數字的不確定性,數字只能顯示一個大致的輪廓,那些固守信念的人永遠不會接受新的信息,也不是好奇心很重的人。(4)警惕數字背後的利益沖突,先弄清楚,這份數據是誰提供的?數據的結果與此人存在利益關聯嗎?
值得關注的是,為了更好地幫助讀者識別新聞中的數字正確與否,書中最後一章還提供了一份包含6個問題的核對清單,提升了該書的實操性,可以說是全書內容濃縮的精華。