❶ 數據分析常見的犯錯問題有哪些
1、分析目標不明確
“海量的數據其實並不能產生海量的財富”,許多數據分析人員由於沒有制定清晰的分析目標,常常在海量數據中混亂,要麼是收集了錯誤的數據,要麼收集的數據不夠完整,這會導致數據分析的結果不夠准確。
2、收集數據時產生誤差
當我們捕獲數據的軟體或硬體出錯時,就會出現一定的誤差。例如,使用日誌與伺服器不同步,則可能丟失移動應用程序上的用戶行為信息。同樣,如果我們使用像麥克風這樣的硬體感測器,我們的錄音可能會捕捉到背景噪音或其他電信號的干擾。
3、樣本缺乏代表性
在進行數據分析時,一定要有可信的數據樣本,這是確保數據分析結果靠不靠譜的關鍵,如果數據樣本不具代表性,終分析的結果也就沒有價值。因此,對於數據樣本,也要求完整和全面,用單一的、不具代表性的數據來代替全部數據進行分析,這種片面的數據得到的分析結果有可能完全是錯誤的。
4、相關關系和因果關系混亂
大部分的數據分析人員在處理大數據時假設相關關系直接影響因果關系。使用大數據來理解兩個變數之間的相關性通常是一個很好的實踐方法,但是,總是使用“因果”類比可能導致虛假的預測和無效的決定。要想實現數據分析的好效果,必須理解相關關系和因果關系兩者的根本區別。相關關系往往是指同時觀察X和Y的變化,而因果關系意味著X導致Y。在數據分析中,這是兩個完全不同的事情,但是許多數據分析人員往往忽視了它們的區別。
5、脫離業務實際
一個專業的數據分析人員,必須非常熟悉所分析項目的行業情況、業務流程以及相關知識,因為數據分析的終結果是解決項目中存在的問題,或者給行業的決策者提供參考意見。如果不能很好地將業務知識和數據分析工作結合起來,脫離業務實際而只關心數據,在這種情況下得到的分析結果將不具有參考價值。
關於數據分析常見的犯錯問題有哪些,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
❷ 大數據分析要避免常犯的5個錯誤
大數據分析要避免常犯的5個錯誤
人們常常自我陶醉於做出了幾張漂亮的圖標或者PPT。這些總結性的表達看上去很令人振奮,但我們不應該基於這些膚淺的總結來做決策,因為這些漂亮的總結性陳述並不能真正反映問題的實質。
就算了解數據分析,聰明人在進行數據分析時,也會犯錯。下面5個錯誤就是聰明人也常犯的5個錯誤:
1.走得太快,沒空回頭看路。
初創公司里的人們彷彿一直在被人念著緊箍咒:「要麼快要麼死,要麼快要麼死。」他們是如此著急於產品開發,以至於他們常常沒有空想用戶對產品的具體使用細節,產品在哪些場景怎麼被使用,產品的哪些部分被使用,以及用戶回頭二次使用產品的原因主要有哪些。而這些問題如果沒有數據難以回答。
2.你沒有記錄足夠的數據。
光給你的團隊看呈現總結出來的數據是沒有用的。如果沒有精確到日乃至小時的變化明細,你無法分析出來數據變化背後看不見的手。如果只是粗放的,斷續的統計,沒有人可以解讀出各種細微因素對於銷售或者用戶使用習慣的影響。
不要害怕量大。對於初創企業來說,大數據其實還是比較少見的事情。如果正處於初創期的你果真(幸運地)有這樣的困擾,可以使用Hadoop平台。
3.其實你的團隊成員常常感覺自己在盲人摸象。
許多公司以為他們把數據扔給Mixpanel,Kissmetrics,或者GoogleAnalytics就夠了,但他們常常忽略了團隊的哪些成員能真正解讀這些數據的內在含義。你需要經常提醒團隊裡面每一位成員多去理解這些數據,並更多地基於數據來做決策。要不然,你的產品團隊只會盲目地開發產品,並祈禱能踩中熱點,不管最終成功還是失敗了都是一頭霧水。
舉個栗子。有天你決定採用市場上常見的病毒營銷手段吸引新用戶。如你所願,用戶量啪啪啪地上來了。可此時你會遇到新的迷茫:你無法衡量這個營銷手段對老用戶的影響。人們可能被吸引眼球,注冊為新用戶,然後厭倦而不再使用。你可能為吸引了一幫沒有價值的用戶付出了過高的代價。而你的產品團隊可能還在沾沾自喜,認為這個損害產品的營銷手段是成功的。
4.目光短淺。
任何一個好的數據分析框架在設計之初都必須滿足長期使用的需要。誠然,你總是可以調整你的框架。但數據積累越多,做調整的代價越大。而且常常做出調整後,你需要同時記錄新舊兩套系統來確保數據不會丟失。
因此,我們最好能在第一天就把框架設計好。其中一個簡單粗暴有效地方法就是所有能獲取的數據放在同一個可延展的平台。不需要浪費時間選擇一個最優解決方法,只要確認這個平台可以裝得下所有將來可能用到的數據,且跨平台也能跑起來就行了。一般來說這樣的原始平台能至少支撐一到兩年。
5.過度總結
雖然說這個問題對於擁有大數據分析團隊的公司來說更常見,初創公司最好也能注意避免掉。試想一下,有多少公司只是記錄平均每分鍾多少銷售額,而不是具體每一分鍾銷售了多少金額?在過去由於運算能力有限,我們只能把海量數據總結成幾個點來看。但在當下,這些運算量根本不是問題,所有人都可以把運營數據精確到分鍾來記錄。而這些精確的記錄可以告訴你海量的信息,比如為什麼轉化率在上升或者下降。
人們常常自我陶醉於做出了幾張漂亮的圖標或者PPT。這些總結性的表達看上去很令人振奮,但我們不應該基於這些膚淺的總結來做決策,因為這些漂亮的總結性陳述並不能真正反映問題的實質。相反,我們更應該關注極端值(Outliers)。
以上是小編為大家分享的關於大數據分析要避免常犯的5個錯誤的相關內容,更多信息可以關注環球青藤分享更多干貨
❸ 大數據時代,容易被數據誤導的八個問題
現在做銷售、市場的人如果不懂得數據分析,用數據說話那真是落伍了。沒見很多企業領導開口就是「拿數據給我看,沒有數據我怎麼做決策啊?」。可見數據分析在當今的企業管理中占據做非常重要的地位,並且數據分析師也是未來十年最有前途的十大職業之一。
先看一個利用數據忽悠人的案例: 在美國和西班牙交戰期間,美國海軍的死亡率是千分之九,而同時期紐約居民的死亡率是千分之十六。後來海軍徵兵人員就用這些數據來證明參軍更安全。你認為這個結論正確嗎?當然不正確,這兩個數字根本就是不匹配的,當兵的都是身強力壯的年輕人,而居民的死亡率是包括老弱病殘的數據,這些人相對來說,死亡率是高的。所以正常應該是用同年齡段的海軍數據和紐約居民來對比。
其實你發現9‰和16‰根本就不具有可對比性。
企業管理人員對「假」數據是深惡痛疾。原因不言而喻:「假數據」造成資源浪費,決策失誤,貽誤戰機等等。簡單總結一下「有問題數據」的幾個方面,幫助大家早日練成火眼金睛。需要提醒大家的是「有問題的數據」並不代表一定是「假」的數據,因為有的數據是真的,但是結論確實「假」的。常見的利用數據來
誤導大家的情況有以下幾種:
一、隨意製造「假」的數據來忽悠客戶或消費者
請原諒我用了「製造」這個動詞。
這種情況隨處可見,對於某些人或組織來說,數據的嚴肅性根本就是一句空話,他們是要什麼數據就編什麼數據,他們的名字叫」編「委。對於這種情況,我們一定要多問幾個為什麼,問清楚數據源就可以了。記住「無數據(源)就沒有真相」。比如報紙的發行量永遠是世界上最難解的謎題,我也不知道答案,我只知道:
1、媒體自己公布的發行量實際上是他們的最高發行記錄,一般來講大家習慣去掉「最高」二字
2、當年某些報紙為了創造最高發行量,直接把報紙從印刷廠拉倒垃圾站,這種情況是公然而無恥的作假,後被禁止
大家看看這句話中的數字是否有錯誤:公司業務員小強有24個客戶,4月不重復客戶購買比率為78%(備注:不重復客戶購買比例=有訂單的客戶總數/總客戶數)。答案是錯誤的,因為永遠算不出來78%這個數據。
二、定向取值問題
這種一種具有隱蔽性和欺騙性的手段。何為定向取值?就是先假定一個結論,然後選取最利於這個結論的人群進行市場調查或研究,最後號稱這個規律或結論具有普遍性。比如平均工資,我要讓他高,就去寫字樓訪問,我要讓他低,那就如勞務市場吧!這種方法是一種騙人的伎倆,要不得,可是很多人非常熱衷!
把這種方法用到極致的是市場調查公司或某些政府機關。比如某年某地區說要在半年內將房價降價多少以上,半年以後他們真的做到了,可是老百姓並沒有感到房價下降的趨勢,為什麼呢?原來他們玩了個數字游戲,半年前的樣本是城區的房價平均,半年後加上了郊區的房價後取平均。
大部分市場調查公司是定向取值的熱衷者。很多企業的老闆會要求市調公司按照他們的結論來采樣調查,然後用這個數據去做廣告、公關,欺騙消費者。有些公司的調查數據是真的(即調查的樣本數足夠多,且沒有定向選取調查對象),但結論卻是假的。因為企業也可以定向取結論。比如(此事例是為了說明問題,假設的數據,千萬不要當真),比如某種牙膏宣傳:使用該品牌的牙膏後將使蛀牙減少23%,這個數據是市場調查後的數據。當然這個數據對你一定是有誘惑力的。因為你認為減少的反義詞就是沒減少!可你是否知道他的背後有可能是這樣的:23%的人蛀牙減少,40%的人沒有任何反應,37%的人蛀牙反而增多了(只是這種可能性不大)。
看看這幅畫你就懂了
三、田忌賽馬
田忌賽馬的故事大家想必都聽說過,利用田忌賽馬來誤導的情況也是比較多見的。看一個例子,2010年底某知名B2C網站搞了一個「全民瘋搶」活動,活動結束後,某人在微博上寫道:就成交數據看,在大促四日里的日均交易額已經遠遠超過了09年度國美、蘇寧和百聯三家線下大賣場的總和日均銷售額。就這句話來說是沒有問題的,錯在前後數據沒有可對比性,用自己促銷時的最大值和別人的常規日銷售來做對比,這樣的對比沒有任何意思。這個就好像劉翔參加殘奧會比賽得了冠軍又能如何?根本就不是一個組別。
再來看一組數據:2010年12月20日到12月26日電影《非誠勿擾2》和《讓子彈飛》的周票房分別為2.4億和2.1億(備註:非2是12月22日上市,讓是12月16日上市)。從這兩個數據是否我們可以得出這樣的結論:「非2」票房大大超越「讓」的票房。從純數據的角度來說,實際上這兩個數據沒有可對比性,不匹配。因為12.20-12.26是「非2」上影的第一周,是「讓」上影的第二周。正常大片的票房高點都是在第一周。如果我們單看他們第一周的票房數據:讓上市第一周4天票房共2.9億,平均每天0.7億,非2上影前5天票房2.4億,平均票房約0.5億元,「讓」票房反而高很多!
田忌賽馬實際上就是在選擇數據的結論。數據的匹配性是我們時刻都需要提防的,這方面是極易犯錯誤的,有時候我們看起來非常合理的對比也有可能是非常不合理的。
四、數據分析的系統誤差
數據分析有的時候是人為因素影響,有的時候還可能有系統誤差出現。舉說來說:假設人事部要在一個公司內部調查一下大家對新來的總經理的看法,選項有五個:非常喜歡、喜歡、沒感覺、不喜歡、非常不喜歡。要求匿名投票。收回選票後結果如下:非常喜歡25%,喜歡40%,沒感覺20%,不喜歡10%,非常不喜歡5%。由於是匿名投票你可能認為這個數據沒問題了吧(假設沒有拍馬屁的現象)。
我的回答是不一定。因為很可能還有很多員工根本就沒有投票。他們不投票的原因有可能是不知道該調查或忙沒來得及投票等,還有就是這些棄權票很可能都是要投「不喜歡」的人,他們不想表達自己的真實想法,所以他們有「目的」的放棄了投票。想想聯合國大會的棄權票吧,有點這個意思的吧。另外如果這個調查的五個選項改成如下排序:非常不喜歡、不喜歡、沒感覺、喜歡、非常喜歡。還是剛才投完票的那些人來投,結果可能不一樣哦!
強力推薦閱讀文章
年薪40+W的大數據開發【教程】,都在這兒!
大數據零基礎快速入門教程
Java基礎教程
web前端開發基礎教程
linux基礎入門教程學習
大數據工程師必須了解的七大概念
雲計算和大數據未來五大趨勢
如何快速建立自己的大數據知識體系