導航:首頁 > 數據處理 > 數據如何誤導了我們在線

數據如何誤導了我們在線

發布時間:2022-11-29 07:06:33

A. 《數據如何誤導了我們》:數字只是我們理解現實的一種工具而非事實

文丨雲海

格羅夫納(Charles Grosvenor)曾經說過:「 數字不會說謊,但說謊的人會玩弄數字。 」大數據時代,數據在我們的日常生活中幾乎無處不在。然而,諸如美國多次民調的預測與最終總統選舉結果相左的事實一再提醒我們,數據在看起來准確、清晰、客觀的表象下面,真實的情況往往可能是大相徑庭的。

荷蘭計量經濟學家、數據分析記者桑內·布勞(Sanne Blauw)在《數據如何誤導了我們 : 普通人的統計學思維啟蒙書》一書中就指出,許多數據根本沒有表面上看起來那樣客觀公正,反而常常是被人有意操縱來誤導我們。

人們大規模使用數據的歷史,始於19世紀,南丁格爾就是世界上最早用圖表顯示數據變化的人之一。得益於數字標准化、大規模數據採集和數據分析這三個重要發展階段,南丁格爾等人才能夠在數字風潮興起的時代,體驗到數據客觀、有說服力的好處。

然而,數字標准化、大規模數據採集、數據分析這三個至關重要的步驟,並不總能被永遠正確地執行。一旦出錯,往往就會導致嚴重的錯誤,這是數字的壞處。作者用智力測試的案例, 向我們展示了數字的局限性:數字背後隱含著人們的價值判斷;並非所有事物都能被量化;衡量同一件事的方法有許多種;有很多事情數字並不會告訴我們。

我們測量一個人的智力水平時,需要借用智商這個抽象的概念。為了測量智商,首先需要對它進行標准化,也就是需要研究者去選擇一些測量智商的指標。這樣操作的後果是,測量得出的數字可能是客觀的,但在標准化背後的人為決定,則往往帶有主觀色彩,導致測量出來的結果與客觀真實情況可能相距甚遠。

其中的原因之一是 ,人們可以採取各種不同的方法或口徑來測量同一個概念 。比如,聯合國糧食及農業組織(FAO)曾將「飢餓」定義為:一個人在一年內攝取的卡路里過少,即為營養不良。2012年,FAO又提出了另外一種定義的飢餓的計算模式,最後得出的數據也不一樣。這就造成了一種現象,全球飢餓人數在不同的情況下,可能出現增長或減少兩種截然不同的結果。也就是說, 「飢餓」的情況如何,很大程度上取決於你如何定義「飢餓」 。

同樣的情況也出現在智商的例子里。在過去幾十年裡,智力測試的內容每隔一段時間就會更新一次。這就出現了一個令人驚訝的結論:人類的智商在19世紀是逐漸升高的。而這個結論的荒謬之處在於,如果用當前的衡量標准重新計算,那麼,前幾代人的得分都在70分附近,而這個數值意味著智障。

同時,作者還在書中反復強調,之所以不要盲信數字,還因為 如何解釋數字背後的意義,取決於數字使用者的理念或需求 。2017年,煙草巨頭菲莫公司曾宣布每年向一個名為「無煙世界」的基金會捐資8000萬美元,由於煙草業與公共衛生之間存在的根本利益沖突,此舉引起了世界衛生組織的強烈反應。因此,作者提醒我們,數字不等同於事實,數字只是我們理解現實的一種工具。

那麼,我們應該如何解讀數字,才能避免被數據誤導呢? 作者在揭示獲取數字的調查統計過程中可能犯的6個關鍵錯誤(第三章)後,提供了幾個鑒別數據是否可信的方法:(1)問問自己:」對於這個數字,我的感受是什麼?「,因為那些容易引起人們有所感觸的數據更容易被濫用。(2)多動一下滑鼠,繼續深入調查。(3)接受數字的不確定性,數字只能顯示一個大致的輪廓,那些固守信念的人永遠不會接受新的信息,也不是好奇心很重的人。(4)警惕數字背後的利益沖突,先弄清楚,這份數據是誰提供的?數據的結果與此人存在利益關聯嗎?

值得關注的是,為了更好地幫助讀者識別新聞中的數字正確與否,書中最後一章還提供了一份包含6個問題的核對清單,提升了該書的實操性,可以說是全書內容濃縮的精華。

B. 為什麼有人用數據分析來欺騙別人

數據分析即使在完全真實,不造假的情況下,也是可以欺騙人的。結合我個人寫論文經歷談談這個事。

(1)常識有的時候是不可靠的

由於在生活實踐中,常識有時是不太可靠的,人總會產生一些脫離開事實的錯覺,所以很多人會以為數據分析更加可靠。然而這又成了一種錯覺。

(2) 我們以為數據分析可靠,但是數據分析結果的展示可以有意的誤導讀者。比如使用圖表來展示最後結果,可以通過原點的變化,和坐標軸的變化使數據結果看起來達到我想要的效果。

(3) 數據分析表面上看是冷冰冰的數,其實從數據的來源,收集,統計來看,無一不是人的手在進行。比如說考研輔導班分析,老師們近年壓中了多少題。有的老師僅在考研輔導班上過一次課,就算做輔導班老師。怎麼算「壓中」?我說19大是考研熱點問題,這也算「壓中」。考研輔導班又分析,考研成功率。有的人只來過一次,考上清華了,這也算考研輔導班學生考上清華的數據。再比如我國城市居民收入調查。所謂「城市」,指的是北上廣,還是哈爾濱、長春,還是鐵嶺、大石橋?在北京調查的話,是去高級住宅區,還是去蟻族生活區?

總結:人們以為常識不可靠,願意相信數據。但數據也是人手所做的,也不可靠。聖經雲,人心詭詐。自然會按自己所想的製造統計結果。

C. 怎樣有效識別數據分析模型中的認知陷阱

避免誤導:怎樣識別數據中的認知陷阱?

這一篇看看怎麼防止別人操縱數據來誤導我們。

首先要澄清一點,雖然我們使用了「操縱數據」這個說法,但是我們不關心動機問題,到底是有意欺騙、存心誤導,還是水平不夠犯了錯誤,我們不做判斷和分別。

我們就是從數據思維的角度,看看如何防止被誤導,不管對方是有意的,還是無意的。

還要澄清的一點是,我們這里討論的都是數據是真實的,只是被錯誤的使用,造成了誤導,不包括偽造數據的情況。

舉個例子:

有一家印度的承包商接受印度政府的委託,負責為難民提供食物保障,包括提供日用品和生活保證品。

但是,由於沒有難民的確切人數,所以這家承包商說要多少錢,政府就得掏多少錢。可是支出看起來實在是太大了,於是就有人建議請統計學家幫忙。

統計學家瞄準了三樣東西——大米、豆類食品和鹽。

如果一個人群的人數是穩定的,那麼這三種食品的消費量就是基本穩定的,因此它們可以交叉印證。結果發現,鹽估計出來的人數最少,大米估計出的人數最多。因為鹽的價格低、總量少,所以沒有人在這個地方誇大。而大米價格高、總量大,所以就有動機在這個地方做假賬。

這個案例就是通過偽造數據來達到非法的目的,是技術水平最低的騙子。這就不屬於我們在這里討論的內容。

利用真實的數據,通過各種操作手段誤導人,才是技術含金量比較高的工作。我們在這里主要討論這個方向。

通過操縱數據來誤導受眾大致有三個方向,分別是操縱數據的使用、操縱數據的產生和操縱數據的解釋。

操縱數據的使用――

這方面的案例太多了,給你舉幾個例子:

用平均數掩蓋分布:

「某公司有3003名股東,平均每人持股660股。」誤導你的真相是這樣的:公司總共200萬股,其中3名大股東持有3/4,其餘3000人總共持有1/4。

用百分比掩蓋規模:

「霍普金斯大學1/3的女生嫁給了大學老師。」但其實,總共只有3名同學錄取,其中1個人嫁給了老師。

用短期波動代替長期效應:

「衛生部最新公布,大霧的一周內倫敦市郊的死亡人數猛增至2800人。」這是因為大霧帶來的嗎?這個地方平均死亡人數如何?接下來的幾周死亡人數又是如何?

遺漏變化的原因:

「最近25年,癌症死亡人數增多。」聽起來嚇人,但其實很多因素更有解釋力。比如,以前很多病因不明的案例現在被確診為癌症;屍體解剖成為常用方法,便於明確診斷;醫學統計資料更全面;易發病年齡段人數增多。還有,現在的人數遠遠超過從前。

偷換概念――

「某議員提議:我們可以讓囚犯離開監獄,去住酒店,這樣反而更便宜。因為囚犯一天的費用是8美元,而住酒店只要7美元。」但其實,這里的8美元指囚犯所有的生活費,但是議員拿來比較的僅僅是住酒店的房租。

定義不統一:

幾家平台都說自己流量第一,證據是平台播出的電視連續劇收視率第一。但是,各家的定義不一致,有的用平均收視率,有的用單集最高收視率,有的用首播重播合計收視率。

忽略測量誤差――

「李蕾的智商101,韓梅梅智商99,所以李蕾比韓梅梅聰明。」但是,任何測量都有誤差,結果應該加上一個區間,比如±3%。這樣,李蕾和韓梅梅的智商范圍有重合,不能斷定誰比誰聰明。

差別過小沒有現實意義:

「某次大規模的智商測試結果,男生平均106.1,女生平均105.9。」即使這個差異在統計上存在,由於差異過小也沒有現實意義。

參照對象不清――

「這款榨汁機的榨汁功能增強了26%。」這是跟誰比?如果是跟老式手搖榨汁機比呢?

比較時忽略基數:

「高速公路晚上7點的事故是早上7點的4倍,所以早上出行生還幾率高4倍。」其實,晚上事故多,只是因為晚上高速公路上的車和人更多。

對象不同強行比較――

「美國和西班牙交戰期間,美國海軍的死亡率是9‰,同時期紐約市居民的死亡率是16‰,所以海軍士兵更安全。」其實,這兩組對象不可比。海軍主要是體格健壯的年輕人,而城市居民包括嬰兒、老人、病人,這些人在哪裡死亡率都高。

變換基數讓人產生幻覺:

50%折扣再打20%折扣,會讓你以為有70%的折扣。實際上,折扣只有60%,因為後面20%的折扣是用5折後的價格計算的。

用數字游戲控制聽眾感覺:

投資回報率第一年為3%,第二年為6%。下面兩個說法都是對的:1.提高了3個百分點;2.增長高達100%。怎麼呈現,取決於你要讓聽眾感受到什麼。

操縱數據的產生――

這方面的案例也很多,比如:

演算法採用的規則有差異:

試驗用兩種演算法來判斷交通違規行為:一種是「嚴格遵守法律條文」,簡稱條文版,車速一過線就開罰單。另一種是安全原則,如果車速在當時的狀況下是安全的,就不判罰。比如周圍沒有車,或者大家速度都很快,你慢下來就是一個移動的石頭,反而對安全不利。這種規則能「准確反映法律意圖」,因此簡稱意圖版。

試驗做下來,同樣的交通狀況,條文組的演算法開出了500張罰單,而意圖組的演算法只開出了1張罰單。你說,交通違規的現象是嚴重還是不嚴重呢?

實驗條件設置錯誤:

有一份得了省級獎的論文,說阿膠的營養效果好,做法是先把老鼠搞到營養不良,然後給老鼠吃阿膠,結果各種數據都優於對照組。看起來,阿膠似乎真的有效,但是一看對照組,只給那些營養不良的老鼠喝清水。這相當於給東西吃和不給東西吃的區別,而不是阿膠和普通營養方式的區別,實驗結論當然不可靠。

為了防止杠精,強調一下,是說這篇論文的結論不可靠,不是討論阿膠有沒有營養。

提問的次序影響回答者的選擇:

調查顯示,向女性調查時,如果先提問關於服裝廣告的問題,再問一般性廣告的問題,女性對廣告的態度就更多是正面的。

向一般人調查,類似的次序問題也存在。比如,先問婚姻生活是不是幸福,再問整體生活是不是幸福,回答者會自動把自己婚姻生活的感受排除,評價整體生活。反過來則相反。

操縱數據的解釋――

還是舉幾個例子給你感受一下:

歸因錯誤:

一位飛行教官非常自信地說,「批評使人進步,表揚使人退步。」因為教官發現,只要他表揚了學員,第二天學員的表現肯定會變差,批評學員就會反過來,第二天的表現會更好。

實際上,這是一個回歸現象。如果今天學員達到了被表揚的程度,就說明他今天的表現超過了自己的平均線,第二天向自己的平均水平回歸是正常的。

因果關系不成立:

在印度,研究人員發現,看電視的人對男女平等的態度更加積極。這指示我們應該普及電視來改變印度農村地區對女性的態度嗎?

真實的情況是,教育程度好的人才買得起電視,而教育程度好的人對男女平等的態度更開明。經常看電視與男女平等積極的態度之間不是因果關系,而是伴隨關系。

理論適用錯誤:

網上有段子說,漢朝是8000人養1個公務員,唐朝是3000人,明朝是2000人,清朝是1000人,而今天是18個人,暗示這個時代的公務員太多了。

這個錯誤是沒有條件地按比例放大或縮小。隨著人口規模的上升,公共服務需要的人數不是按線性比例增加的,應該是按幾何程度增加的。只有在合理的理論框架下,才能評價18個人養1個公務員是多還是少……

D. 《錯覺:AI如何通過數據挖掘誤導我們》pdf下載在線閱讀全文,求百度網盤雲資源

《錯覺:AI如何通過數據挖掘誤導我們》網路網盤pdf最新全集下載:
鏈接: https://pan..com/s/1wgp-42B8YmdkhdLwJFX05w

?pwd=d7aa 提取碼: d7aa
簡介:在人工智慧異常火熱的今天,很多人認為我們生活在一個不可思議的歷史時期,人工智慧和大數據可能比工業革命更能改變人的一生。然而這種說法未免言過其實,我們的生活確實可能有所改變,但並非是朝好的方面發展。我們過於武斷地認為計算機搜索和處理堆積如山的數據時不會出差錯,但計算機只是擅長收集、儲存和搜索數據,它們沒有常識或智慧,不知道數字和詞語的意思,無法評估資料庫中內容的相關性和有效性,它們沒有區分真數據、假數據和壞數據所需的人類判斷力,沒有分辨有理有據和虛假偽造的統計學模型所需的人類智能。

E. 數據也會說謊 常見的數據造假三種形態

數據也會說謊:常見的數據造假三種形態

日常生活工作中,處處都會與數據打交道,但你知道數據是會「說謊」的,即你看到的數據結果並不是事實。本文介紹一些常見的說謊場景以及如何避免。

一、圖表欺騙

圖表通常用來增強需要文字和數據的說服力,通過可視化的圖表更容易讓受眾接受信息。但圖表有時候會表現的不是數據的本質:

1.圖表拉伸

如果沒有特殊用途,通常圖表的長(橫軸)與高(縱軸)的比例為1:1到1:2之間,如果在這個范圍之外,數據現實的結果會過於異常。比如:

2.坐標軸特殊處理

在很多場合下,如果兩列數據的取值范圍差異性過大,通常在顯示時會取對數,這時原來柱狀圖間的巨大差異會被故意縮小。通常,嚴謹的分析師在講解之前會進行告知。比如:

3.數據標准化

數據標准化也是一個讓數據落在相同區間內常用的方法,常用Z標准化或0-1標准化,如果不提前告知,可能會誤以為兩列數據取值異常接近,不符合實際業務場景,比如:


隱秘層次:★★☆☆☆

破解方法:詢問分析師的圖表各個含義,了解基本圖表查看常識。

二、數據處理欺騙

數據處理中的欺騙方法通常包括抽樣方法欺騙、樣本量不同、異常值處理欺騙等。

1.抽樣方法欺騙

整體樣本的維度,粒度和取數邏輯相同的情況下,不用的樣本抽樣規則會使數據看來更符合或不符合「預期」。比如在做用戶挽回中,假如做的兩次活動的抽樣樣本分別是最近6個月未購物和最近6個月未購物但有登陸行為的用戶,不用做什麼測試,基本上可以確定後者的挽回效果更佳。要識破這個「騙局」只需要詢問數據取樣方法即可,需要細到具體的SQL邏輯。

2.樣本量不同

嚴格來說樣本量不同並不一定是故意欺騙,實踐中確實存在這種情況。(遇到這種情況可以用欠抽樣和過抽樣進行樣本平衡)樣本量不同分為兩種情況:

樣本量數量不同。比如要做效果差異對比,第一步是做效果比對,假如兩個數據樣本量分別是幾千和幾萬的級別,可比性就很小。尤其是對於樣本分布不均的情況下,數據結果可信度低。

樣本主體不同。這是非常嚴重的數據引導錯誤,通常存在於為了達到某種結果而故意選擇對結果有利的樣本。比如做品類推廣,一部分用戶推廣渠道為廣告,另一部分是CPS可以遇見相同費用下後者的效果必然更好。

相同樣本不同的客觀環境。比如做站內用戶體驗分析,除了用隨機A/B測試以外,其他所有測試方法都沒有完全相同的客觀環境,因此即使選的是相同樣本,不同時間由於用戶,網站本身等影響,可信度較低。

3.異常值處理欺騙

通常面對樣本時需要做整體數據觀察,以確認樣本數量、均值、極值、方差、標准差以及數據范圍等。其中的極值很可能是異常值,此時如何處理異常值會直接影響數據結果。比如某天的銷售數據中,可能存在異常下單或行單,導致品類銷售額和轉化率異常高。如果忽視該情況,結論就是利好的,但實際並非如此。通常我們會把異常值拿出來,單獨做文字說明,甚至會說明沒有異常值下的真實情況。

隱秘層次:★★★☆☆

破解方法:在跟數據分析師溝通中,多詢問他們在數據選取規則,處理方法上的方法,如果他們吞吞吐吐或答不上來,那很有可能是故意為之。同時,業務人員也要增強基本數據意識,不能被這種不可見的底層錯誤欺騙。

三、 意識上的欺騙

這種欺騙是等級最高也是最嚴重的欺騙和錯誤,通常存在於數據分析師在做數據之前就已經下結論,分析過程中只選取有利於證明其論斷的方法和材料,因此會在從數據選擇,處理,數據表現等各個方面進行事實上的扭曲,是嚴重的誤導行為!數據分析師需要有中立的立場,客觀的態度,任何有立場的分析師的結論都會失之偏頗。

隱秘層次:★★★★★

破解方法:在跟該分析師溝通中,查看其是否有明顯立場或態度,如果有,那麼該警惕;然後通過上面的方法逐一驗證。

綜上,當你遇到以下數據情形,就需要警惕數據的真實性了:

數據報告從來不註明數據出處,數據時間,數據取樣規則,數據取得方法等。現在市場上很多報告都屬於這一類。

數據報告在做市場調研中說明全樣本共1000,其中北京可能只有100,基於這100個樣本出來的結論顯然不可信。事實上很多市場研究報告就是這樣出來的。

數據報告中存在明顯的觀點,對於事物的分析只講其優勢或劣勢,不全面也不客觀。現在很多互聯網分析師就是屬於這類,大家注意辨別。

以上是小編為大家分享的關於數據也會說謊 常見的數據造假三種形態的相關內容,更多信息可以關注環球青藤分享更多干貨

F. 直播賣貨數據造假存在造假現象嗎,這樣的錯誤數據對消費者存在哪些誤導

直播帶貨數據造假的現象確實存在,而這樣的錯誤數據,會讓消費者誤認為產品的質量和銷量非常出色。

隨著網路帶貨直播時代的到來,很多消費者都會選擇在直播間當中進行消費,只不過直播帶貨數據有很多都存在著虛假成分,如果看到了這些虛假的帶貨數據,那麼消費者就很有可能會吃虧上當。

一、直播帶貨數據造假的現象確實存在。

雖然網路帶貨直播非常受歡迎,但這並不代表著每位帶貨主播都能夠創造非常好的銷量成績,只不過為了吸引消費者的關注,這些帶貨主播就會刻意製造虛假的帶貨數據。因為這些虛假的帶貨數據能夠掩蓋帶貨主播人氣較低的問題,同時也能夠給消費者帶來錯誤的引導。

在網上購買產品時,我們必須要擦亮自己的眼睛,雖然網路在和受到了全民歡迎,但這並不意味著帶貨主播能夠輕易損害消費者的權益。

G. 關於數據分析的兩大誤區

關於數據分析的兩大誤區

平時無論是進行用戶調研、產品運營還是競品分析,都少不了對於數據的分析,如果項目中出現某些分歧誰也無法說服誰時,很多時候也都是拿數據說話,可見在開發產品的時候,對數據的統計與分析十分重要。大家都說數據是客觀的,但其實數據受背景環境、統計者、統計方法、分析者看法等多重因素影響,以致我們在統計和分析時卻常常陷入誤區,得不到正確的答案。下面簡單說一下關於數據的兩個常見誤區。

誤區一:把某一類型數據當做全部數據導致分析結果錯誤

先說個小故事:二戰時英國空軍希望增加飛機的裝甲厚度,但如果全部裝甲加厚則會降低靈活性,所以最終決定只增加受攻擊最多部位的裝甲。後來工作人員經過對中彈飛機的統計,發現大部分飛機的機翼彈孔較多,所以決定增加機翼的裝甲厚度。後來一個專家說:「可是機頭中彈的那些飛機就沒有飛回來」。

這個故事裡本應是對全部飛機進行分析,但統計樣本沒有包含已經損毀的飛機,所以得出的結論只是根據部分數據,或者說是根據具有同樣特徵(受傷)的某一類數據推論出的,並不能代表全部類型的數據,所以得出的結果很可能是錯誤的。

再看一個例子:前一陣我為了分析人人網,想看看人人網現在的用戶訪問量是什麼狀態,於是選擇了PV作為觀測指標,通過alexa來看人人網的PV在過去一年中呈明顯的下降態勢,這也印證了我的預期,於是就以此為論據進行了分析。可是後來發現,alexa僅僅統計通過WEB的訪問量,而用戶移動端的登錄並不在統計范圍之內!這兩年智能手機普及迅速,移動端登錄也非常普遍,缺失這部分數據意味著前面統計的數據基本沒有意義,因為WEB端訪問量的下降有可能是用戶訪問人人網次數降低,同時也有可能是由PC端向移動端遷移,這個統計就不能作為論據出現了。

從上面這個例子可以看到,我只統計了WEB端的訪問情況,認為這就是人人網全部訪問量,而忽略了移動端,從而推出了錯誤的結果。另一個問題就是由於我已經有預期(人人網訪問量下降),那麼我在為這個結論找尋相關的論據,當找到符合我結論的論據時很容易不去做更多判斷就選擇有利於自己的數據,這也是數據統計人員常見的問題。

用某一類型數據代替全部數據會誤導我們做出錯誤的判斷,在統計時一定要注意這點。這一方面需要意識,在統計、分析數據時要時刻想著還有沒有其他的情況,還有沒有我們沒有想到的數據類型,這些數據是不是能代表全部類型,嘗試站在更高的角度去解讀這些數據,而不是拿到數據後立刻就盲目分析。另一方面需要知識的累積,比如你知道alexa是如何進行統計的,那麼很輕易就會想到還要考慮移動端的情況。知識的累積有助於我們做出准確的判斷,這些知識與經驗都是從閱讀或實踐中得來的,平時多做,慢慢累積,時間久了自然會看得更全面。

誤區二: 鮮明事件讓我們誇大了偶然因素

鮮明的事件更容易占據我們的視線,從而讓我們高估事件發生的概率。

比如從年度統計中看到,某基金近兩年的收益率達到100%,有某某明星操盤手等等,人們就會爭相去購買該基金,同時也會讓人們認為買基金就是可以賺錢的。而實際上,絕少有基金可以常年保持這樣的收益率,近兩年收益前五名的基金很可能在五年後收益率就排行倒數,而世面上大部分基金也無法跑贏大盤,不過人們在記憶中依然會認為買基金確實很賺錢,當年XXX兩年益100%呢。兩年收益達到100%只是偶然情況,但卻由於事件太過鮮明而長久駐扎在人們的心智中。

類似的事還有很多。比如富士康N連跳,大家都覺得這么多人跳樓,富士康肯定太黑暗了,但大家卻沒有注意富士康員工大概有37萬人,按12連跳的話自殺率不到十萬分之四,而全國的平均自殺率為十萬分之十五, N連跳自殺率遠低於全國自殺率,可見富士康12連跳實際上是一個社會問題,而不僅僅是一個企業的問題,我們太過注重鮮明的事實卻忽略了背後整體的概率。還有前兩天美國波士頓爆炸案死亡3人,微博上各種祈福,可是阿富汗、伊拉克等國家幾乎每天都面臨著這些問題,只是由於媒體不會整天報道那裡的消息,而天天出現的襲擊也麻痹了人們的神經,所以我們只會關注鮮明的波士頓爆炸,而對其他地區天天發生的事情無動於衷。另外比如你周圍有人買股票賺了好多錢,可能你也會很想投身股市一試運氣,而忽略了散戶8賠1平1賺的整體概率。你看到了各種創業成功者的報道,認為自己也可以嘗試創業,畢竟成功概率好像也不低。但你不知道那些不成功的人基本沒有被報道的機會,而實際上創業成功的人可能不到1%。

說了這么多,其實就是太過鮮明的偶然事件會讓我們忽略背後一直存在的整體概率。看到這種數據的時候,不要太過情緒化,你所看到的數據或事件可能只是個例,並不能代表大多數,可以去查查歷史情況或平均情況,去找找沉默的用戶或數據,切忌輕易就做出判斷和決定。要理性看待這些偶然事件,既不盲目跟隨,也不對此嗤之以鼻,在明確整體概率的情況下,剔除偶然因素,分析這些偶然事件背後是否存在著某些值得借鑒的地方,從而吸收到自己產品或項目中,以便使自己的產品或要處理的事情有可能成為市場中下一個「偶然事件」。

以上是小編為大家分享的關於關於數據分析的兩大誤區的相關內容,更多信息可以關注環球青藤分享更多干貨

H. 人們可能會犯的7個數據錯誤

人們可能會犯的7個數據錯誤
數據正在成為現代企業的一個更重要的工具,幾乎可以作為一種貨幣,它可以從衡量營銷活動的有效性到評估員工績效等方面促進一切。但許多企業家認為數據本身就是有價值的。企業擁有的數據越多越好,如果有的話,企業會做出更好的決定。
事實上,收集數據只是開展業務過程的第一步,單憑數據就無法對企業業務進行全面准確的描述。
如果企業想要獲得成功的話,也需要能夠有效地收集、組織、解釋、展示這些數據,而大多數人都犯了阻止他們這樣做的嚴重錯誤。

最常見的錯誤
企業家和數據分析師經常犯這些嚴重的錯誤:
1.沒有收集足夠的數據。採用「越多數據越好」的理念來運行業務是一個糟糕的主意,因為它沒有將數量與優先順序相區分。但是,在開始信任這種結論之前,企業需要最少量的數據。例如,如果企業有1000個客戶,則無法選擇其中的2個進行訪問,因此企業需要一個更大、更具代表性的樣本量。
2.收集錯誤的數據類型。企業也可能收集錯誤的數據類型。如果企業經營的是一家汽車維修店,卻了解目標人群的飲食習慣,那麼這些信息對其不會有幫助。當然,這是一個令人震驚的例子,但原理是一樣的。企業需要收集數據點,以便你得出結論並採取行動,而不是為了收集數據而收集數據。
3.使用錯誤的儀錶板。企業的儀錶板對其結果的影響比人們想像的要大。這些工具負責將企業的所有數據收集在一個地方,為其提供強化數據和生成報告,並為多個團隊成員提供訪問許可權。有這么多的選項可供選擇,很難說哪一個是企業業務的正確選擇,但是如果企業想要獲得最好的工具,則需要通讀所有這些選項。否則,企業可能會花費過多的時間來培訓新員工,或者生成沒有強調關鍵變數的乏味報告。
4.容許偏見扭曲自己的結論。人的思想有很大的缺陷,因此在分析數據時相信自己的直覺通常是一個壞主意。人們很容易出現一系列的認知偏差,從確認偏差到生存偏差,甚至可能很快扭曲人們面前的客觀信息。最好是學習這些認知偏差,並找出彌補方法,所以人們的結論不會混亂或扭曲。
5.比較蘋果和橙子。大多數新手試圖在沒有進行比較的時候達到目的,將一個選擇的數據與另一個選擇的數據相比較。這種「蘋果對橙子」的比較可能會導致錯誤的結論,所以最好盡可能地比較自己的數據集。
6.未能隔離變數。現代應用程序通常需要審查數十個甚至數百個不同的變數,尤其是在營銷行業。當企業發現一個相關性,如內容長度和訪問者之間的關系時,很容易得出因果關系,但是這是很危險的(有時候也是搞笑的)。相反,企業需要隔離正在使用的變數,以便可以證明或反駁因果關系,並了解更多關於數據點之間的關系。
7.提出錯誤的問題。數據本身不會給企業任何結論。企業的圖表和圖形通常不會帶來一個明顯的突破。相反,企業需要提問您的數據,並使用所需的工具來發現答案。如果所問的是錯誤的問題,無論是誤導性的還是不可行的,數據的性能如何,或者工具的直觀程度如何,都無關緊要。
數據並不完美
數據是如此有價值以至於已經變得商品化,這是事實,但除非你知道如何有效地使用數據,否則它實際上是毫無價值的。企業的方法,組織方法,甚至是其解釋總是會出現問題,但是企業對最佳實踐的熟悉程度越高,就越有責任有效地利用其數據,企業就越有可能獲得准確、有價值的結論。不要認為自己的努力正在發揮作用,挑戰他們,並不斷調整自己的方法,發現隱藏的偏見,提出更好的問題,並從分析工作中獲得更多的價值。

I. 大數據時代,容易被數據誤導的八個問題

現在做銷售、市場的人如果不懂得數據分析,用數據說話那真是落伍了。沒見很多企業領導開口就是「拿數據給我看,沒有數據我怎麼做決策啊?」。可見數據分析在當今的企業管理中占據做非常重要的地位,並且數據分析師也是未來十年最有前途的十大職業之一。

先看一個利用數據忽悠人的案例: 在美國和西班牙交戰期間,美國海軍的死亡率是千分之九,而同時期紐約居民的死亡率是千分之十六。後來海軍徵兵人員就用這些數據來證明參軍更安全。你認為這個結論正確嗎?當然不正確,這兩個數字根本就是不匹配的,當兵的都是身強力壯的年輕人,而居民的死亡率是包括老弱病殘的數據,這些人相對來說,死亡率是高的。所以正常應該是用同年齡段的海軍數據和紐約居民來對比。

其實你發現9‰和16‰根本就不具有可對比性。

企業管理人員對「假」數據是深惡痛疾。原因不言而喻:「假數據」造成資源浪費,決策失誤,貽誤戰機等等。簡單總結一下「有問題數據」的幾個方面,幫助大家早日練成火眼金睛。需要提醒大家的是「有問題的數據」並不代表一定是「假」的數據,因為有的數據是真的,但是結論確實「假」的。常見的利用數據來

誤導大家的情況有以下幾種:

一、隨意製造「假」的數據來忽悠客戶或消費者

請原諒我用了「製造」這個動詞。

這種情況隨處可見,對於某些人或組織來說,數據的嚴肅性根本就是一句空話,他們是要什麼數據就編什麼數據,他們的名字叫」編「委。對於這種情況,我們一定要多問幾個為什麼,問清楚數據源就可以了。記住「無數據(源)就沒有真相」。比如報紙的發行量永遠是世界上最難解的謎題,我也不知道答案,我只知道:

1、媒體自己公布的發行量實際上是他們的最高發行記錄,一般來講大家習慣去掉「最高」二字

2、當年某些報紙為了創造最高發行量,直接把報紙從印刷廠拉倒垃圾站,這種情況是公然而無恥的作假,後被禁止

大家看看這句話中的數字是否有錯誤:公司業務員小強有24個客戶,4月不重復客戶購買比率為78%(備注:不重復客戶購買比例=有訂單的客戶總數/總客戶數)。答案是錯誤的,因為永遠算不出來78%這個數據。

二、定向取值問題

這種一種具有隱蔽性和欺騙性的手段。何為定向取值?就是先假定一個結論,然後選取最利於這個結論的人群進行市場調查或研究,最後號稱這個規律或結論具有普遍性。比如平均工資,我要讓他高,就去寫字樓訪問,我要讓他低,那就如勞務市場吧!這種方法是一種騙人的伎倆,要不得,可是很多人非常熱衷!

把這種方法用到極致的是市場調查公司或某些政府機關。比如某年某地區說要在半年內將房價降價多少以上,半年以後他們真的做到了,可是老百姓並沒有感到房價下降的趨勢,為什麼呢?原來他們玩了個數字游戲,半年前的樣本是城區的房價平均,半年後加上了郊區的房價後取平均。

大部分市場調查公司是定向取值的熱衷者。很多企業的老闆會要求市調公司按照他們的結論來采樣調查,然後用這個數據去做廣告、公關,欺騙消費者。有些公司的調查數據是真的(即調查的樣本數足夠多,且沒有定向選取調查對象),但結論卻是假的。因為企業也可以定向取結論。比如(此事例是為了說明問題,假設的數據,千萬不要當真),比如某種牙膏宣傳:使用該品牌的牙膏後將使蛀牙減少23%,這個數據是市場調查後的數據。當然這個數據對你一定是有誘惑力的。因為你認為減少的反義詞就是沒減少!可你是否知道他的背後有可能是這樣的:23%的人蛀牙減少,40%的人沒有任何反應,37%的人蛀牙反而增多了(只是這種可能性不大)。

看看這幅畫你就懂了

三、田忌賽馬

田忌賽馬的故事大家想必都聽說過,利用田忌賽馬來誤導的情況也是比較多見的。看一個例子,2010年底某知名B2C網站搞了一個「全民瘋搶」活動,活動結束後,某人在微博上寫道:就成交數據看,在大促四日里的日均交易額已經遠遠超過了09年度國美、蘇寧和百聯三家線下大賣場的總和日均銷售額。就這句話來說是沒有問題的,錯在前後數據沒有可對比性,用自己促銷時的最大值和別人的常規日銷售來做對比,這樣的對比沒有任何意思。這個就好像劉翔參加殘奧會比賽得了冠軍又能如何?根本就不是一個組別。

再來看一組數據:2010年12月20日到12月26日電影《非誠勿擾2》和《讓子彈飛》的周票房分別為2.4億和2.1億(備註:非2是12月22日上市,讓是12月16日上市)。從這兩個數據是否我們可以得出這樣的結論:「非2」票房大大超越「讓」的票房。從純數據的角度來說,實際上這兩個數據沒有可對比性,不匹配。因為12.20-12.26是「非2」上影的第一周,是「讓」上影的第二周。正常大片的票房高點都是在第一周。如果我們單看他們第一周的票房數據:讓上市第一周4天票房共2.9億,平均每天0.7億,非2上影前5天票房2.4億,平均票房約0.5億元,「讓」票房反而高很多!

田忌賽馬實際上就是在選擇數據的結論。數據的匹配性是我們時刻都需要提防的,這方面是極易犯錯誤的,有時候我們看起來非常合理的對比也有可能是非常不合理的。

四、數據分析的系統誤差

數據分析有的時候是人為因素影響,有的時候還可能有系統誤差出現。舉說來說:假設人事部要在一個公司內部調查一下大家對新來的總經理的看法,選項有五個:非常喜歡、喜歡、沒感覺、不喜歡、非常不喜歡。要求匿名投票。收回選票後結果如下:非常喜歡25%,喜歡40%,沒感覺20%,不喜歡10%,非常不喜歡5%。由於是匿名投票你可能認為這個數據沒問題了吧(假設沒有拍馬屁的現象)。

我的回答是不一定。因為很可能還有很多員工根本就沒有投票。他們不投票的原因有可能是不知道該調查或忙沒來得及投票等,還有就是這些棄權票很可能都是要投「不喜歡」的人,他們不想表達自己的真實想法,所以他們有「目的」的放棄了投票。想想聯合國大會的棄權票吧,有點這個意思的吧。另外如果這個調查的五個選項改成如下排序:非常不喜歡、不喜歡、沒感覺、喜歡、非常喜歡。還是剛才投完票的那些人來投,結果可能不一樣哦!

強力推薦閱讀文章

年薪40+W的大數據開發【教程】,都在這兒!

大數據零基礎快速入門教程

Java基礎教程

web前端開發基礎教程

linux基礎入門教程學習

大數據工程師必須了解的七大概念

雲計算和大數據未來五大趨勢

如何快速建立自己的大數據知識體系

閱讀全文

與數據如何誤導了我們在線相關的資料

熱點內容
網格交易到底有多少年化收益 瀏覽:607
聚多生活如何分享商品到小程序 瀏覽:302
新工資系統如何錄數據 瀏覽:20
如何調出電腦主程序界面 瀏覽:254
微波遙感採用什麼技術 瀏覽:516
三菱plc改程序怎麼寫 瀏覽:107
交易貓蘋果區如何填寫 瀏覽:887
武昌東湖技術開發區在哪裡 瀏覽:143
spss年級屬於什麼類型的數據 瀏覽:37
如何看好市場龍頭 瀏覽:297
如何申請水果交易平台 瀏覽:359
如何在釘釘上用小閑小程序查成績 瀏覽:768
柳州鐵道職業技術學院哪些專業可以專升本 瀏覽:140
ajax不返回數據怎麼辦 瀏覽:793
抖音小程序怎麼放在視頻下方 瀏覽:630
壞道硬碟的數據怎麼導出 瀏覽:933
昆明西山區玩具批發市場在哪裡 瀏覽:679
程序員發布會是什麼 瀏覽:629
如何讓小程序有黏性 瀏覽:983
碧水源屬於哪個交易所 瀏覽:312