1. 數據分析的誤區有哪些
1、數據分析需要大量投資如今,似乎對每一項新技術的投入都必須通過嚴格的財務支出的篩選過程。“它需要多少費用?”——是IT和業務經理在提議啟動項目或部署新工具時需要首先考慮的問題之一。
有些人認為數據分析本質上是一項代價高昂的工作,因此僅限於擁有大量預算或大量內部資源的企業機構。但是事實並非如此,現在市場上有很多開源工具和其他工具能夠幫助展示數據分析的價值;並且基於雲系統的大數據架構,也會比傳統的數據倉庫便宜得多。你只需要明確內部數據存儲以及要解決的問題,就可以輕松的在雲上使用分析來解決業務問題。
此外,數據分析通常用於實現三個結果:提高流程效率、實現收入增長和主動進行風險管理,總的來說,數據分析在任何公司的應用中都帶來了巨大的成本效益。
2、你需要“大數據”才能執行分析
對於許多人來說,大數據和分析的概念是相輔相成的,企業需要在執行分析之前收集大量數據,以便生成業務洞察,改進決策制定等。
當然,大數據分析的優勢也很明確,擁有這些資源的公司利用大數據存儲作為促進分析工作的一部分,獲得了顯著的競爭優勢。但是大數據卻並不是分析必不可少的搭配。
分析師需要特定的數據,而不是更多的數據。要想更好地支持決策和提高績效,企業必須更多的考慮業務用戶,確定他們需要訪問哪些數據,如何呈現數據,而不是關注更多的數據。95%以上的用戶會尋找和他們工作相關的信息來支持他們進行決策,來提高業務表現,所以企業需要以最簡單的格式向他們提供這些信息,幫助他們快速定位重要信息。
3、分析消除了人類的偏見
自動化系統執行的方式不應該存在偏見,但技術是由人類建立的,因此消除所有偏見幾乎是不可能的。
有些人認為分析和機器學習消除了人類的偏見,不幸的是,這並沒有實現。演算法和分析使用“訓練數據”進行調整,並將重現“訓練數據”所具有的任何特徵,在某些情況下,這會在分析過程中引入良性偏見,但也有可能帶來更嚴重的偏見——因為“演算法這么說”並不意味著答案是公平的或者有用的。
4、最好的演算法意味著絕對的勝利
事實證明,有了足夠的數據,有時演算法無關緊要。谷歌的工程師認為,數據有著不合理有效性 ,簡單的統計模型,加上極大量的數據,比包含大量特徵和總結的“智能優越模型”能輸出更優質的結果。
因此,在某些情況下,只需處理更大量的數據就可以獲得最佳效果。
5、演算法是安全的
人們固執地信任統計模型和演算法,並且隨著分析程序的組織構建,他們會越來越依賴復雜的模型來支持決策。這或許是因為用戶並不覺得他們有能力挑戰模型,因此他們必須相信構建它們的“聰明人”。
比如,在過去的50到60年裡,我們反復聽到“人工智慧將在20年內接管人類工作”的言論,現在也還是有人反復強調這種觀點。在我們可以完全信任機器學習和它們輸出的結果之前,還有很多事情要做。在那之前,我們需要挑戰構建演算法和模型的人,讓他們解釋如何得到答案。這並不是說我們不能依賴於結果,而是說我們需要透明度,這樣我們才可以信任和驗證分析結果。