導航:首頁 > 數據處理 > 數據採集認識上存在哪些誤區

數據採集認識上存在哪些誤區

發布時間:2023-09-18 21:19:05

Ⅰ 關於數據分析的兩大誤區

關於數據分析的兩大誤區

平時無論是進行用戶調研、產品運營還是競品分析,都少不了對於數據的分析,如果項目中出現某些分歧誰也無法說服誰時,很多時候也都是拿數據說話,可見在開發產品的時候,對數據的統計與分析十分重要。大家都說數據是客觀的,但其實數據受背景環境、統計者、統計方法、分析者看法等多重因素影響,以致我們在統計和分析時卻常常陷入誤區,得不到正確的答案。下面簡單說一下關於數據的兩個常見誤區。

誤區一:把某一類型數據當做全部數據導致分析結果錯誤

先說個小故事:二戰時英國空軍希望增加飛機的裝甲厚度,但如果全部裝甲加厚則會降低靈活性,所以最終決定只增加受攻擊最多部位的裝甲。後來工作人員經過對中彈飛機的統計,發現大部分飛機的機翼彈孔較多,所以決定增加機翼的裝甲厚度。後來一個專家說:「可是機頭中彈的那些飛機就沒有飛回來」。

這個故事裡本應是對全部飛機進行分析,但統計樣本沒有包含已經損毀的飛機,所以得出的結論只是根據部分數據,或者說是根據具有同樣特徵(受傷)的某一類數據推論出的,並不能代表全部類型的數據,所以得出的結果很可能是錯誤的。

再看一個例子:前一陣我為了分析人人網,想看看人人網現在的用戶訪問量是什麼狀態,於是選擇了PV作為觀測指標,通過alexa來看人人網的PV在過去一年中呈明顯的下降態勢,這也印證了我的預期,於是就以此為論據進行了分析。可是後來發現,alexa僅僅統計通過WEB的訪問量,而用戶移動端的登錄並不在統計范圍之內!這兩年智能手機普及迅速,移動端登錄也非常普遍,缺失這部分數據意味著前面統計的數據基本沒有意義,因為WEB端訪問量的下降有可能是用戶訪問人人網次數降低,同時也有可能是由PC端向移動端遷移,這個統計就不能作為論據出現了。

從上面這個例子可以看到,我只統計了WEB端的訪問情況,認為這就是人人網全部訪問量,而忽略了移動端,從而推出了錯誤的結果。另一個問題就是由於我已經有預期(人人網訪問量下降),那麼我在為這個結論找尋相關的論據,當找到符合我結論的論據時很容易不去做更多判斷就選擇有利於自己的數據,這也是數據統計人員常見的問題。

用某一類型數據代替全部數據會誤導我們做出錯誤的判斷,在統計時一定要注意這點。這一方面需要意識,在統計、分析數據時要時刻想著還有沒有其他的情況,還有沒有我們沒有想到的數據類型,這些數據是不是能代表全部類型,嘗試站在更高的角度去解讀這些數據,而不是拿到數據後立刻就盲目分析。另一方面需要知識的累積,比如你知道alexa是如何進行統計的,那麼很輕易就會想到還要考慮移動端的情況。知識的累積有助於我們做出准確的判斷,這些知識與經驗都是從閱讀或實踐中得來的,平時多做,慢慢累積,時間久了自然會看得更全面。

誤區二: 鮮明事件讓我們誇大了偶然因素

鮮明的事件更容易占據我們的視線,從而讓我們高估事件發生的概率。

比如從年度統計中看到,某基金近兩年的收益率達到100%,有某某明星操盤手等等,人們就會爭相去購買該基金,同時也會讓人們認為買基金就是可以賺錢的。而實際上,絕少有基金可以常年保持這樣的收益率,近兩年收益前五名的基金很可能在五年後收益率就排行倒數,而世面上大部分基金也無法跑贏大盤,不過人們在記憶中依然會認為買基金確實很賺錢,當年XXX兩年益100%呢。兩年收益達到100%只是偶然情況,但卻由於事件太過鮮明而長久駐扎在人們的心智中。

類似的事還有很多。比如富士康N連跳,大家都覺得這么多人跳樓,富士康肯定太黑暗了,但大家卻沒有注意富士康員工大概有37萬人,按12連跳的話自殺率不到十萬分之四,而全國的平均自殺率為十萬分之十五, N連跳自殺率遠低於全國自殺率,可見富士康12連跳實際上是一個社會問題,而不僅僅是一個企業的問題,我們太過注重鮮明的事實卻忽略了背後整體的概率。還有前兩天美國波士頓爆炸案死亡3人,微博上各種祈福,可是阿富汗、伊拉克等國家幾乎每天都面臨著這些問題,只是由於媒體不會整天報道那裡的消息,而天天出現的襲擊也麻痹了人們的神經,所以我們只會關注鮮明的波士頓爆炸,而對其他地區天天發生的事情無動於衷。另外比如你周圍有人買股票賺了好多錢,可能你也會很想投身股市一試運氣,而忽略了散戶8賠1平1賺的整體概率。你看到了各種創業成功者的報道,認為自己也可以嘗試創業,畢竟成功概率好像也不低。但你不知道那些不成功的人基本沒有被報道的機會,而實際上創業成功的人可能不到1%。

說了這么多,其實就是太過鮮明的偶然事件會讓我們忽略背後一直存在的整體概率。看到這種數據的時候,不要太過情緒化,你所看到的數據或事件可能只是個例,並不能代表大多數,可以去查查歷史情況或平均情況,去找找沉默的用戶或數據,切忌輕易就做出判斷和決定。要理性看待這些偶然事件,既不盲目跟隨,也不對此嗤之以鼻,在明確整體概率的情況下,剔除偶然因素,分析這些偶然事件背後是否存在著某些值得借鑒的地方,從而吸收到自己產品或項目中,以便使自己的產品或要處理的事情有可能成為市場中下一個「偶然事件」。

以上是小編為大家分享的關於關於數據分析的兩大誤區的相關內容,更多信息可以關注環球青藤分享更多干貨

Ⅱ 數據分析的誤區有哪些

1、數據分析需要大量投資

如今,似乎對每一項新技術的投入都必須通過嚴格的財務支出的篩選過程。“它需要多少費用?”——是IT和業務經理在提議啟動項目或部署新工具時需要首先考慮的問題之一。


有些人認為數據分析本質上是一項代價高昂的工作,因此僅限於擁有大量預算或大量內部資源的企業機構。但是事實並非如此,現在市場上有很多開源工具和其他工具能夠幫助展示數據分析的價值;並且基於雲系統的大數據架構,也會比傳統的數據倉庫便宜得多。你只需要明確內部數據存儲以及要解決的問題,就可以輕松的在雲上使用分析來解決業務問題。


此外,數據分析通常用於實現三個結果:提高流程效率、實現收入增長和主動進行風險管理,總的來說,數據分析在任何公司的應用中都帶來了巨大的成本效益。


2、你需要“大數據”才能執行分析


對於許多人來說,大數據和分析的概念是相輔相成的,企業需要在執行分析之前收集大量數據,以便生成業務洞察,改進決策制定等。


當然,大數據分析的優勢也很明確,擁有這些資源的公司利用大數據存儲作為促進分析工作的一部分,獲得了顯著的競爭優勢。但是大數據卻並不是分析必不可少的搭配。


分析師需要特定的數據,而不是更多的數據。要想更好地支持決策和提高績效,企業必須更多的考慮業務用戶,確定他們需要訪問哪些數據,如何呈現數據,而不是關注更多的數據。95%以上的用戶會尋找和他們工作相關的信息來支持他們進行決策,來提高業務表現,所以企業需要以最簡單的格式向他們提供這些信息,幫助他們快速定位重要信息。


3、分析消除了人類的偏見


自動化系統執行的方式不應該存在偏見,但技術是由人類建立的,因此消除所有偏見幾乎是不可能的。


有些人認為分析和機器學習消除了人類的偏見,不幸的是,這並沒有實現。演算法和分析使用“訓練數據”進行調整,並將重現“訓練數據”所具有的任何特徵,在某些情況下,這會在分析過程中引入良性偏見,但也有可能帶來更嚴重的偏見——因為“演算法這么說”並不意味著答案是公平的或者有用的。


4、最好的演算法意味著絕對的勝利


事實證明,有了足夠的數據,有時演算法無關緊要。谷歌的工程師認為,數據有著不合理有效性 ,簡單的統計模型,加上極大量的數據,比包含大量特徵和總結的“智能優越模型”能輸出更優質的結果。


因此,在某些情況下,只需處理更大量的數據就可以獲得最佳效果。


5、演算法是安全的


人們固執地信任統計模型和演算法,並且隨著分析程序的組織構建,他們會越來越依賴復雜的模型來支持決策。這或許是因為用戶並不覺得他們有能力挑戰模型,因此他們必須相信構建它們的“聰明人”。


比如,在過去的50到60年裡,我們反復聽到“人工智慧將在20年內接管人類工作”的言論,現在也還是有人反復強調這種觀點。在我們可以完全信任機器學習和它們輸出的結果之前,還有很多事情要做。在那之前,我們需要挑戰構建演算法和模型的人,讓他們解釋如何得到答案。這並不是說我們不能依賴於結果,而是說我們需要透明度,這樣我們才可以信任和驗證分析結果。

Ⅲ 大數據有哪些分析誤區

1.數據樣本量不夠


我們在分析某些特定的業務或用戶行為時,可能存在相對關注度較小,用戶使用很少的情況,或者是在提取數據的過程中,增加了很多的限制條件或者多種用戶行為或屬性進行交叉後,得到很少的用戶樣本。


對於這種數量小的數據樣本得出的結果很有可能會出錯,但是樣本量多少才算夠多呢?這個沒有一個特定的數值,通常只能結合具體的場景進行分析。


建議:可以把時間線拉長,或者把不重要的限定條件去掉,來獲得足量的樣本。


2.存在選擇性偏見或者倖存者偏見


統計學的另一大理論基石,便是中心極限定理。


簡單描述下就是,總體樣本中,任意一個群體樣本的平均值,都會圍繞在這個群體的整體平均值周圍。


通常我們會按照這個原理,用隨機抽樣的方式,通過對樣本的分析來估計整體。當然得出的結論會比較接近真實情況的。可是有一個問題是,我們在採集數據的過程中是否是真的隨機。


舉個實際業務場景的例子,在軟體應用升級期間,通過衡量用戶的日活、人均播放量、人均播放時長等指標,來判斷新版本的歡迎度是否優於老版本。聽起來好像沒有什麼問題,其實這里就隱藏了選擇性偏見,因為新版本發布時,第一批升級上來的用戶往往就是最活躍的用戶。這批用戶在這些指標上,本來表現就是優於一般用戶的,因此指標數據更高並不能說明更好。


3.混入臟數據


臟數據是指嚴重不合理或對於實際業務毫無意義的數據,通常是由程序bug、第三方攻擊、網路傳輸異常等原因造成的。


這種數據的破壞性比較大,可能引發程序報錯,對指標的准確度影響也較大。


關於大數據有哪些分析誤區,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。

Ⅳ .在計算機數據採集、數字化處理的過程中主要存在哪些問題如何避免這些問題

一是每一個數據點的時間。另一個就是采樣率設置的問題。
第一是每一個數據點的時間,在NI的數據採集中是通過T0和dt來確定的,T0就是開始數據採集的初始時間,是任務開始時,數據次啊及卡讀取的計算機時間,dt二個數據點之間間隔的時間,是采樣率的倒數,比如1K采樣率,dt就是1/1000=0.001=1毫秒。在施工DAQmxRead.vi的時候要選擇波形輸出而不是DBL輸出,波形輸出就帶有這些信息,而DBL就只有數據而沒有時間信息了。
另一個就是采樣率設置的問題。數據採集卡的采樣脈沖一般是由它的內部時鍾源進行分頻後得到的,所以采樣率是不是非常准確,得看時鍾源是否能被整數倍地分頻到指定的采樣率。

閱讀全文

與數據採集認識上存在哪些誤區相關的資料

熱點內容
如何走進場外交易市場 瀏覽:830
金十數據官網是哪個省 瀏覽:287
交易貓號主改密碼了怎麼辦 瀏覽:515
本地民事代理怎麼處理 瀏覽:245
為什麼花生代理老是斷連接 瀏覽:353
歐弗蘭怎麼代理 瀏覽:786
如何規范數據信息被非法獲取 瀏覽:309
新傢具收購哪個市場好 瀏覽:13
菏澤什麼地方有舊貨市場 瀏覽:116
雲技術公司怎麼做 瀏覽:333
山東市場怎麼開發 瀏覽:951
江蘇揚州對口高考技術佔多少分 瀏覽:603
如何製造情懷產品 瀏覽:904
委託加盟代理怎麼做 瀏覽:342
智慧消防合作代理怎麼辦 瀏覽:615
余額寶為什麼沒有類似產品儲存 瀏覽:449
什麼是月份信息 瀏覽:919
技術保障是如何保障生產的 瀏覽:724
製作直方圖數據要多少 瀏覽:678
大數據需要什麼學科 瀏覽:442