Ⅰ 大數據可視化需要避免的三大誤區
大數據可視化需要避免的三大誤區
最近,很多企業都在談數據可視化,其受關注的程度不次於大數據。數據可視化是正確理解數據信息的最好方法,甚至是唯一方式。出色的可視化產品可以讓用戶對自己目前關注的事情一目瞭然,並可以快速給出建議,隨時隨地分享。在大數據時代,如果你的數據展示方法不對,可能會破壞數據可視化效果。誤區一:顯示所有的數據盡管我們多次被告誡,大多數人並不關心你對多少數據做了多少量化指標的處理,他們不在乎你每天可以處理多少數據,或您的Hadoop集群有多大。用戶想要的是具體的或者相關的答案,並且他們希望越早得到越好。但是有些數據可視化工具,還是會把無關的數據顯示在頁面上,目的是希望接近企業所需,但事實上造成了用戶很難找到有價值的信息。現在儀錶板應用非常流行,其指導思想是可以「顯示所有狀態的數據。大多數性能是枯燥的數據展示,而多異化功能則被隱藏。其實,好的儀錶板數據展示,是把重要數據做了了趣味化的展示處理。讓用戶做一個有效排序,哪些是優先處理,哪些需要延後處理。數據可視化可以達到儀表盤達不到的能力,可以更好地處理數據報告。誤區二:顯示錯誤的數據顯示錯誤的數據和顯示所有的數據同樣存在隱性危機。在數據可視化操作中,顯示的信息子集與數據是相關的關系。比如你關心銷售數據,您可能也關心每個地區或者個別銷售人員的銷售數據,考慮通過數據做出決策。把幾個關聯性很強的圖表進行折中處理,選擇一個圖片來展示,這實際上需要一個復雜的數據可視化能力來完成,而且相關幾個圖片的數據必須做到干凈、清晰。誤區三:美化數據展示結果即使你採用干凈的數據繪制圖表,你仍然會弄錯。因為特殊化的表格類型展示很少見,絕大多數的可視化需求都是用來滿足線形圖、餅圖等基本圖形。要想美化數據展示,在處理關鍵數據字與段之間的關系時,就應該考慮把指定欄位加在坐標軸上。按照組別、類別、數據時間、數據量級以及重要性進行劃分,尤其是顏色類別一定要有,並且可以自定義亮度和飽和度,確保在使用本標簽或者其他標簽的時候做到准確無誤。為了避免失誤,最好的方法是專注於你的目標。在可視化應用之前就應該考慮:我們關心什麼?需要做什麼?要解決什麼問題?要看到怎樣的數據?以怎樣的結構和關系來展示?要突出哪些數據?當你能夠回答這些問題時,你就可以進行數據可視化的設計或者應用了。
以上是小編為大家分享的關於大數據可視化需要避免的三大誤區的相關內容,更多信息可以關注環球青藤分享更多干貨
Ⅱ 大數據有哪些分析誤區
1.數據樣本量不夠
我們在分析某些特定的業務或用戶行為時,可能存在相對關注度較小,用戶使用很少的情況,或者是在提取數據的過程中,增加了很多的限制條件或者多種用戶行為或屬性進行交叉後,得到很少的用戶樣本。
對於這種數量小的數據樣本得出的結果很有可能會出錯,但是樣本量多少才算夠多呢?這個沒有一個特定的數值,通常只能結合具體的場景進行分析。
建議:可以把時間線拉長,或者把不重要的限定條件去掉,來獲得足量的樣本。
2.存在選擇性偏見或者倖存者偏見
統計學的另一大理論基石,便是中心極限定理。
簡單描述下就是,總體樣本中,任意一個群體樣本的平均值,都會圍繞在這個群體的整體平均值周圍。
通常我們會按照這個原理,用隨機抽樣的方式,通過對樣本的分析來估計整體。當然得出的結論會比較接近真實情況的。可是有一個問題是,我們在採集數據的過程中是否是真的隨機。
舉個實際業務場景的例子,在軟體應用升級期間,通過衡量用戶的日活、人均播放量、人均播放時長等指標,來判斷新版本的歡迎度是否優於老版本。聽起來好像沒有什麼問題,其實這里就隱藏了選擇性偏見,因為新版本發布時,第一批升級上來的用戶往往就是最活躍的用戶。這批用戶在這些指標上,本來表現就是優於一般用戶的,因此指標數據更高並不能說明更好。
3.混入臟數據
臟數據是指嚴重不合理或對於實際業務毫無意義的數據,通常是由程序bug、第三方攻擊、網路傳輸異常等原因造成的。
這種數據的破壞性比較大,可能引發程序報錯,對指標的准確度影響也較大。
關於大數據有哪些分析誤區,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。