⑴ 正確運用避免陷入大數據的「陷阱」
正確運用避免陷入大數據的「陷阱」
通常,對於新的IT關鍵詞必定會出現「反對派」。最近,「大數據」就成為被攻擊的對象,諸如「大數據失敗論」等論調也明顯增加。
業界對大數據抱著極大的期待,這一點從大量的大數據研討會和展示會風潮就足以證明。這些年來,除了雲計算浪潮,缺乏熱烈話題的IT業界而言,大數據是期待已久的大型關鍵詞,也許大數據會成為恢復業界活力的強心劑。
與此同時,日本政府提出新的IT戰略--「將行政數據向民間開發,以便不斷創造新商務」。也就是說,如何有效利用數據,推動商業成功,業已成為國家戰略的一環。
雖然筆者既不是強烈的贊成派也不是反對派,但通過以往的采訪經驗,對處理數據的難度有著清醒的認識。更何況涉及到大數據,其難度顯而易見。
筆者周邊很多人對大數據也有著各種不同的看法,提出各種問題。當然這些對於IT業界的讀者而言,都是理所當然的事情,筆者說這些也許是班門弄斧了。但是,正是這些眾所周知的道理通常也是非常重要不可忽視的。因此,下面筆者將重新提出大數據的「陷阱」,探討如何才能避免運用大數據的失敗。
是否真正需要大量的數據
首先,必須明確的一點是,是否真正需要大量的數據。
在一次活動中,一位統計分析的專家在談到大數據時說:「本來統計分析學是如何通過少量的取樣,去了解事務整體的學問。例如,電視的收視率調查就是一個典型的事例,這類調查就是通過極少的樣本,來掌握日本全國的收視狀況。如果目的明確,並不需要大量的數據。」
由於上述言論出自目前作為「數據科學家」備受矚目的統計分析方面的專家之口,讓筆者不禁大吃一驚。這就是說,只要有一定量的數據,無關數據數量,分析的結果並不會有很大的差別。如果果真如此,不禁讓人產生懷疑,即到底大數據是為何而存在。
聽到上述觀點,使人感到大數據所面臨的矛盾的應當不僅僅是筆者一人。本以為通過大數據分析,滿懷期待能夠發現以往沒有認識到的新的東西,但有時其結果不過是已有所知的事實而已。如果企業為系統開發投入數十億日元,得出的不過是證明資深職員「經驗」的結論,這也未免讓人難以接受。
正因為如此,就有必要重新考慮為何需要大數據這一問題。例如,企業需要明確通過將有交易往來的公司和社交媒體等本企業外的大量數據進行組合,是為達到何種目的等,即有必要事先制定大數據的目標。
數據的「質量」有無問題
第二點是由誰來維護大量的數據,即數據的「質量」如何能夠得到保障。
筆者曾聽說這樣一件事。某企業的總經理每個月都會收到有交易往來的IT供應商的宣傳(PR)雜志,但收件人的頭銜不是「總經理」,而是他曾經兼任公司CIO時的頭銜「常務董事」。雖然將頭銜搞錯,但還是都能收到,因此並沒有太在意。但當這家IT供應商的總經理到公司進行禮節性拜訪時,就提出了希望改一下頭銜的想法。
而這家IT供應商的新的賣點是大數據,公司的總經理當場表示回去馬上會進行修改。起初以為這點事情對於運營大數據業務的IT供應商而言不過是舉手之勞,一定會進行糾正。但是,等到下一個月他收到的的PR雜志時,發現收件人的頭銜仍然是「常務董事」。這位總經理通過兩本PR雜志感到彷彿看到了大數據的現狀,因此他非常失望地說:「歸根到底IT供應商並沒有維護顧客資料庫」。
上述例子雖然是顧客數據,而不僅僅是顧客數據,說到大數據必然還需要處理很多各種各樣的企業外部的數據。但是,這些數據是否是最新數據,其數據的精確度又如何等數據的「質量」就會非常重要。分析出處不明的數據將毫無意義。如果顧客數據不能隨時進行維護,也就不會產生任何價值。不應當將當初以為是寶山的大數據,變成一座堆滿垃圾的山。
是否忽視了現場職工的工作干勁
第三點就是企業不僅應當努力培養數據科學家,同時也需要提升現場職員的分析數據的能力。如果在店頭等現場直接接觸顧客的員工變得「擅長數字」,他們也能夠常常通過數據考慮事情並進行判斷,這樣的企業必定會強大起來。
例如,有一家超市的店頭銷售員就從與顧客的對話中得到啟發,通過購進新的商品或是改變商品陳列的方法,提升了銷售額。又比如,在特快列車上負責銷售的員工,發現似乎「可吸煙座位的咖啡暢銷」,當他整理出不同列車的銷售業績,結果發現確實是如此。於是決定在吸煙車廂集中推銷咖啡,結果咖啡的銷售量明顯增加。
當然,通過現場增加的銷售額,也許和利用大數據獲得的銷售數字相比很小,而且其分析能力也遠遠不及數據科學家。但是即便如此,如果通過將這種方式橫向拓展到其他現場,積累的數字也會非常可觀。同時,最為重要的是,這種方式能夠提升現場員工的工作動力。
實際上,某零售企業自從將其銷售分析統一由總公司實施後,店頭員工就失去干勁,甚至出現退職的員工。這說明只依靠上級的指令,則會降低現場的職業道德。因此,這家公司決定給予現場員工自由分析判斷的職能,由此店頭又重新恢復了活力。雖然大數據非常重要,但是如果將許可權集中在某些部門,則會導致現場喪失工作干勁。
以上三點實際上不僅僅對大數據而言非常重要,而且同時適用於整個信息系統。大數據是IT業界期待已久的關鍵詞,為使其成長壯大,就需要腳踏實地的努力,而不應被其華麗的部分所束縛擺弄。正因為如此,筆者認為提出的上述三點需要重新銘記心中。
⑵ 為什麼統計數據有時會「撒謊」
你知道該如何看待統計數據,以避免被數據愚弄嗎?
收集統計數據是一項復雜而又精細的工作,每一步都有出錯的可能。即使所有的細節都萬無一失,最終得到的數據里也會隱藏大量的陷阱。如果盲目地對統計數據進行分析,有時會得出一些甚為荒謬的結論。
統計學家曾經調查過鈾礦工人的壽命,其結果讓人大跌眼鏡:在鈾礦工作的工人居然與普通人的壽命相當,有時甚至更長!難道統計結果表明在鈾礦工作對身體無害甚至有益嗎?當然不是!事實上,只有那些身強體壯的人才會去鈾礦工作,他們的壽命本來就可能長一些;正是因為去了鈾礦工作,才把他們的壽命拉低到了平均水平,造成了數據的偽獨立性。這種現象常常被稱為健康工人效應。
類似地,有數據表明打太極拳的人和不打太極拳的人平均壽命相當。事實上,打太極拳確實可以強身健體,延長壽命,但打太極拳的人往往體弱多病,這一事實也給統計數據帶來了虛假的獨立性。
有虛假的獨立性數據,就有虛假的相關性數據。統計數據顯示,去救火的消防員越多,火災損失越大。初次聽到這樣的結論,想必大家的反應都一樣:這怎麼可能呢?仔細想想你就明白了:正是因為火災災情越嚴重,損失會越大,所以才會有更多消防員去救火。這里的因果關系弄顛倒了。數據只能顯示兩個事情有相關性,但並不能告訴你它們內部的邏輯關系。
事實上,兩個在統計數據上呈現相關性的事件,甚至有可能根本就沒有因果關系。統計數據表明,冰激凌銷量增加,鯊魚食人事件也會同時增加。但這並不意味著,把冰激凌銷售點全部取締了,就能減小人被鯊魚吃掉的概率。真實的情況是,這兩個變數同時增加只不過是因為夏天到了。又如,統計數據顯示,籃球隊的獲勝率,竟然與隊員的球襪長度成正比。難道把隊員的球襪都換長一些,就能增加球隊實力嗎?顯然不是。數據背後真正的因果關系是,球隊的獲勝概率和隊員的球襪長度同時受第三個因素——隊員身高——的影響,這導致了獲勝概率與球襪長度之間表現出虛假的相關性。
類似的例子還有很多。如果觀察大氣層二氧化碳的含量變化和肥胖症人口的數量變化,會發現一個非常有趣的現象:在1950年左右,兩者都出現了一次非常劇烈的增長。但科學研究並沒有發現,二氧化碳含量的增加會導致人類出現過度肥胖的趨勢。事實上,這個數據背後的真實原因是,20世紀50年代,汽車產業形成了一定的規模,尾氣排放導致大氣中的二氧化碳含量陡然增加;同時,人們也更多地用汽車代步,活動的時間越來越少,自然就越來越胖了。
可見,要想從統計數據中挖掘出正確的結論,並不是一件容易的事。如果只從表面上觀察數據,往往會得到一些錯誤的信息。正如著名作家馬克·吐溫所言:「世上一共有三種謊言:謊言,糟糕的謊言,還有統計數據。」
⑶ 大數據分析的四類陷阱
大數據分析的四類陷阱
科技領域的人們正摩拳擦掌以迎接大數據(Big Data)時代的到來。大數據技術的本質是能夠對數十億的信息進行分析,從中獲得有價值的洞見。例如惠普的研究人員就能根據Twitter來預測好萊塢的票房。由此看來,其它行業只要具備合適的工具,就能對社會網路進行數據分析。但是事情並非如此簡單。首先,分析大數據集並不是什麼新鮮事。有些公司已經做了幾十年的數據分析。當前技術的不同之處在於,它提升了分析的速度,擴展了數據規模,使小型企業也能使用這種技術。而另一方面,大數據也會造成更嚴重的錯誤。針對上例,普林斯頓大學就得出了不同的研究結論:Twitter並不能真的預測票房成績。對同一個問題,研究者怎麼會得出相反的結論呢?我們來看一下數據分析中最常見的四類陷阱。1、樣本缺乏代表性大數據的背景仍是統計分析和推斷。而統計系學生應該學到的一件事就是:統計結論依賴於樣本的代表性。Twitter用戶可能受到更高教育且收入更高,其年齡也會偏大一些。如果用這種有偏的樣本來預測目標觀眾是年輕人的電影票房,其統計結論可能就不會合理了。提示:確保你得到的樣本數據代表了研究總體。否則,你的分析結論就缺乏堅實的基礎。2、事物是變化的對研究對象的科學理解需要耐心。可能你的實驗獲得了預期的效果,但這還不夠。你應該進行後續實驗看能否得到相同的結果,還要看其他研究人員能否重現你的實驗結果。特別是在處理人類個體或團隊行為的時候,這一點尤其重要。這是因為事物在是不斷變化的。惠普和普林斯頓大學的研究項目有兩年的時間間隔,在這段時間中Twitter用戶有可能發生了改變。同樣的道理,如果觀察到公司的增長速度發生變化,這有可能是客戶群的情緒變化,也可能是使用了錯誤的數據收集或分析方法。提示:不要只進行一次分析。要定期驗證你之前的結論。3、理解數據方式不同惠普和普林斯頓的兩組研究人員所看到的數據不僅僅是推文。惠普的研究人員建立了一個模型,來研究電影首映時的發推率和上映影院數量。但上映影院的數量與票房成功之間有很強相關性。而普林斯頓的研究人員使用機器學習技術,來研究在三個不同時間段(影片上映之前、期間或觀影後)用戶的推文情緒特徵(正面或負面)。也就是說,這兩個研究團隊都表示,他們在研究Twitter的預測能力。但實際上,他們除了使用twitter數據之外還利用了其它數據資源,例如上映影院數量和IMDB評分等等。這樣Twitter的預測效果與其它因素混合在一起,它或許是預測票房成功的一種影響因素,這要取決於研究人員如何理解和使用它。提示:一組數據可以提供多種類型的信息。你需要找到不同的解釋方式,並加以分析4、錯誤和偏差人會犯各種錯誤。有可能是某個研究小組出現了某個錯誤。例如試圖將所有的推文都歸為正面或負面的情緒,這種方法也許有些粗糙。又或許研究人員不自覺地選擇數據,以支持他們的論點。例如普林斯頓大學研究人員假設,是推文本身而非推文的數量,蘊含著消費者的情緒表達。提示:不要只使用一種方法。用事實來檢驗你的假設是否奏效。大數據技術能很好的改善企業產品和服務,並更好地滿足市場。但是,信息需要人來解釋,而人的錯誤有時是致命的。所以大數據是一柄雙刃劍,成功與否還得看持劍人的功力。
以上是小編為大家分享的關於大數據分析的四類陷阱的相關內容,更多信息可以關注環球青藤分享更多干貨
⑷ 怎樣有效識別數據分析模型中的認知陷阱
避免誤導:怎樣識別數據中的認知陷阱?
這一篇看看怎麼防止別人操縱數據來誤導我們。
首先要澄清一點,雖然我們使用了「操縱數據」這個說法,但是我們不關心動機問題,到底是有意欺騙、存心誤導,還是水平不夠犯了錯誤,我們不做判斷和分別。
我們就是從數據思維的角度,看看如何防止被誤導,不管對方是有意的,還是無意的。
還要澄清的一點是,我們這里討論的都是數據是真實的,只是被錯誤的使用,造成了誤導,不包括偽造數據的情況。
舉個例子:
有一家印度的承包商接受印度政府的委託,負責為難民提供食物保障,包括提供日用品和生活保證品。
但是,由於沒有難民的確切人數,所以這家承包商說要多少錢,政府就得掏多少錢。可是支出看起來實在是太大了,於是就有人建議請統計學家幫忙。
統計學家瞄準了三樣東西——大米、豆類食品和鹽。
如果一個人群的人數是穩定的,那麼這三種食品的消費量就是基本穩定的,因此它們可以交叉印證。結果發現,鹽估計出來的人數最少,大米估計出的人數最多。因為鹽的價格低、總量少,所以沒有人在這個地方誇大。而大米價格高、總量大,所以就有動機在這個地方做假賬。
這個案例就是通過偽造數據來達到非法的目的,是技術水平最低的騙子。這就不屬於我們在這里討論的內容。
利用真實的數據,通過各種操作手段誤導人,才是技術含金量比較高的工作。我們在這里主要討論這個方向。
通過操縱數據來誤導受眾大致有三個方向,分別是操縱數據的使用、操縱數據的產生和操縱數據的解釋。
操縱數據的使用――
這方面的案例太多了,給你舉幾個例子:
用平均數掩蓋分布:
「某公司有3003名股東,平均每人持股660股。」誤導你的真相是這樣的:公司總共200萬股,其中3名大股東持有3/4,其餘3000人總共持有1/4。
用百分比掩蓋規模:
「霍普金斯大學1/3的女生嫁給了大學老師。」但其實,總共只有3名同學錄取,其中1個人嫁給了老師。
用短期波動代替長期效應:
「衛生部最新公布,大霧的一周內倫敦市郊的死亡人數猛增至2800人。」這是因為大霧帶來的嗎?這個地方平均死亡人數如何?接下來的幾周死亡人數又是如何?
遺漏變化的原因:
「最近25年,癌症死亡人數增多。」聽起來嚇人,但其實很多因素更有解釋力。比如,以前很多病因不明的案例現在被確診為癌症;屍體解剖成為常用方法,便於明確診斷;醫學統計資料更全面;易發病年齡段人數增多。還有,現在的人數遠遠超過從前。
偷換概念――
「某議員提議:我們可以讓囚犯離開監獄,去住酒店,這樣反而更便宜。因為囚犯一天的費用是8美元,而住酒店只要7美元。」但其實,這里的8美元指囚犯所有的生活費,但是議員拿來比較的僅僅是住酒店的房租。
定義不統一:
幾家平台都說自己流量第一,證據是平台播出的電視連續劇收視率第一。但是,各家的定義不一致,有的用平均收視率,有的用單集最高收視率,有的用首播重播合計收視率。
忽略測量誤差――
「李蕾的智商101,韓梅梅智商99,所以李蕾比韓梅梅聰明。」但是,任何測量都有誤差,結果應該加上一個區間,比如±3%。這樣,李蕾和韓梅梅的智商范圍有重合,不能斷定誰比誰聰明。
差別過小沒有現實意義:
「某次大規模的智商測試結果,男生平均106.1,女生平均105.9。」即使這個差異在統計上存在,由於差異過小也沒有現實意義。
參照對象不清――
「這款榨汁機的榨汁功能增強了26%。」這是跟誰比?如果是跟老式手搖榨汁機比呢?
比較時忽略基數:
「高速公路晚上7點的事故是早上7點的4倍,所以早上出行生還幾率高4倍。」其實,晚上事故多,只是因為晚上高速公路上的車和人更多。
對象不同強行比較――
「美國和西班牙交戰期間,美國海軍的死亡率是9‰,同時期紐約市居民的死亡率是16‰,所以海軍士兵更安全。」其實,這兩組對象不可比。海軍主要是體格健壯的年輕人,而城市居民包括嬰兒、老人、病人,這些人在哪裡死亡率都高。
變換基數讓人產生幻覺:
50%折扣再打20%折扣,會讓你以為有70%的折扣。實際上,折扣只有60%,因為後面20%的折扣是用5折後的價格計算的。
用數字游戲控制聽眾感覺:
投資回報率第一年為3%,第二年為6%。下面兩個說法都是對的:1.提高了3個百分點;2.增長高達100%。怎麼呈現,取決於你要讓聽眾感受到什麼。
操縱數據的產生――
這方面的案例也很多,比如:
演算法採用的規則有差異:
試驗用兩種演算法來判斷交通違規行為:一種是「嚴格遵守法律條文」,簡稱條文版,車速一過線就開罰單。另一種是安全原則,如果車速在當時的狀況下是安全的,就不判罰。比如周圍沒有車,或者大家速度都很快,你慢下來就是一個移動的石頭,反而對安全不利。這種規則能「准確反映法律意圖」,因此簡稱意圖版。
試驗做下來,同樣的交通狀況,條文組的演算法開出了500張罰單,而意圖組的演算法只開出了1張罰單。你說,交通違規的現象是嚴重還是不嚴重呢?
實驗條件設置錯誤:
有一份得了省級獎的論文,說阿膠的營養效果好,做法是先把老鼠搞到營養不良,然後給老鼠吃阿膠,結果各種數據都優於對照組。看起來,阿膠似乎真的有效,但是一看對照組,只給那些營養不良的老鼠喝清水。這相當於給東西吃和不給東西吃的區別,而不是阿膠和普通營養方式的區別,實驗結論當然不可靠。
為了防止杠精,強調一下,是說這篇論文的結論不可靠,不是討論阿膠有沒有營養。
提問的次序影響回答者的選擇:
調查顯示,向女性調查時,如果先提問關於服裝廣告的問題,再問一般性廣告的問題,女性對廣告的態度就更多是正面的。
向一般人調查,類似的次序問題也存在。比如,先問婚姻生活是不是幸福,再問整體生活是不是幸福,回答者會自動把自己婚姻生活的感受排除,評價整體生活。反過來則相反。
操縱數據的解釋――
還是舉幾個例子給你感受一下:
歸因錯誤:
一位飛行教官非常自信地說,「批評使人進步,表揚使人退步。」因為教官發現,只要他表揚了學員,第二天學員的表現肯定會變差,批評學員就會反過來,第二天的表現會更好。
實際上,這是一個回歸現象。如果今天學員達到了被表揚的程度,就說明他今天的表現超過了自己的平均線,第二天向自己的平均水平回歸是正常的。
因果關系不成立:
在印度,研究人員發現,看電視的人對男女平等的態度更加積極。這指示我們應該普及電視來改變印度農村地區對女性的態度嗎?
真實的情況是,教育程度好的人才買得起電視,而教育程度好的人對男女平等的態度更開明。經常看電視與男女平等積極的態度之間不是因果關系,而是伴隨關系。
理論適用錯誤:
網上有段子說,漢朝是8000人養1個公務員,唐朝是3000人,明朝是2000人,清朝是1000人,而今天是18個人,暗示這個時代的公務員太多了。
這個錯誤是沒有條件地按比例放大或縮小。隨著人口規模的上升,公共服務需要的人數不是按線性比例增加的,應該是按幾何程度增加的。只有在合理的理論框架下,才能評價18個人養1個公務員是多還是少……