導航:首頁 > 數據處理 > 數據整理陷阱有哪些

數據整理陷阱有哪些

發布時間：2023-06-09 07:37:10

1. 大數據安全問題有哪些類型

【導讀】大數據運用有助於公司改善事務運營並猜測職業趨勢。然而，這項技能可能會被歹意利用，如果沒有適當的數據安全策略，黑客就有可能對用戶隱私造成重大要挾。那麼，大數據安全問題有哪些類型呢?

1、散布式體系

大數據解決方案將數據和操作散布在許多體繫上，以便更快地進行處理和分析。這種散布式體系能夠平衡負載，並避免發生單點故障。然而，這樣的體系很簡單遭到安全要挾，黑客只需攻擊一個點就能夠滲透到整個網路。因而，網路犯罪分子能夠很簡單地獲取敏感數據並損壞連網體系。

2、數據拜訪

大數據體系需求拜訪控制來約束對敏感數據的拜訪，否則，任何用戶都能夠拜訪機密數據，有些用戶可能將其用於歹意目的。此外，網路犯罪分子能夠侵入與大數據體系相連的體系，以盜取敏感數據。因而，運用大數據的公司需求查看並驗證每個用戶的身份。

3、不正確的數據

網路犯罪分子能夠經過操縱存儲的數據來影響大數據體系的精確性。為此，網路罪犯分子能夠創立虛偽數據，並將這些數據提供給大數據體系，例如，醫療機構能夠運用大數據體系來研究患者的病歷，而黑客能夠修正此數據以生成不正確的診斷成果。這種有缺陷的成果不簡單被發現，公司可能會持續運用不精確的數據。此類網路攻擊會嚴重影響數據完整性和大數據體系的性能。

4、侵略隱私權

大數據體系通常包括機密數據，這是許多人十分關懷的問題。這樣的大數據隱私要挾現已被全球的專家們評論過了。此外，網路犯罪分子經常攻擊大數據體系，以損壞敏感數據。

以上就是小編今天給大家整理分享關於「大數據安全問題有哪些類型?」的相關內容希望對大家有所幫助。小編認為要想在大數據行業有所建樹，需要考取部分含金量高的數據分析師證書，這樣更有核心競爭力與競爭資本。

2. 怎樣有效識別數據分析模型中的認知陷阱

避免誤導：怎樣識別數據中的認知陷阱？

這一篇看看怎麼防止別人操縱數據來誤導我們。

首先要澄清一點，雖然我們使用了「操縱數據」這個說法，但是我們不關心動機問題，到底是有意欺騙、存心誤導，還是水平不夠犯了錯誤，我們不做判斷和分別。

我們就是從數據思維的角度，看看如何防止被誤導，不管對方是有意的，還是無意的。

還要澄清的一點是，我們這里討論的都是數據是真實的，只是被錯誤的使用，造成了誤導，不包括偽造數據的情況。

舉個例子：

有一家印度的承包商接受印度政府的委託，負責為難民提供食物保障，包括提供日用品和生活保證品。

但是，由於沒有難民的確切人數，所以這家承包商說要多少錢，政府就得掏多少錢。可是支出看起來實在是太大了，於是就有人建議請統計學家幫忙。

統計學家瞄準了三樣東西——大米、豆類食品和鹽。

如果一個人群的人數是穩定的，那麼這三種食品的消費量就是基本穩定的，因此它們可以交叉印證。結果發現，鹽估計出來的人數最少，大米估計出的人數最多。因為鹽的價格低、總量少，所以沒有人在這個地方誇大。而大米價格高、總量大，所以就有動機在這個地方做假賬。

這個案例就是通過偽造數據來達到非法的目的，是技術水平最低的騙子。這就不屬於我們在這里討論的內容。

利用真實的數據，通過各種操作手段誤導人，才是技術含金量比較高的工作。我們在這里主要討論這個方向。

通過操縱數據來誤導受眾大致有三個方向，分別是操縱數據的使用、操縱數據的產生和操縱數據的解釋。

操縱數據的使用――

這方面的案例太多了，給你舉幾個例子：

用平均數掩蓋分布：

「某公司有3003名股東，平均每人持股660股。」誤導你的真相是這樣的：公司總共200萬股，其中3名大股東持有3/4，其餘3000人總共持有1/4。

用百分比掩蓋規模：

「霍普金斯大學1/3的女生嫁給了大學老師。」但其實，總共只有3名同學錄取，其中1個人嫁給了老師。

用短期波動代替長期效應：

「衛生部最新公布，大霧的一周內倫敦市郊的死亡人數猛增至2800人。」這是因為大霧帶來的嗎？這個地方平均死亡人數如何？接下來的幾周死亡人數又是如何？

遺漏變化的原因：

「最近25年，癌症死亡人數增多。」聽起來嚇人，但其實很多因素更有解釋力。比如，以前很多病因不明的案例現在被確診為癌症；屍體解剖成為常用方法，便於明確診斷；醫學統計資料更全面；易發病年齡段人數增多。還有，現在的人數遠遠超過從前。

偷換概念――

「某議員提議：我們可以讓囚犯離開監獄，去住酒店，這樣反而更便宜。因為囚犯一天的費用是8美元，而住酒店只要7美元。」但其實，這里的8美元指囚犯所有的生活費，但是議員拿來比較的僅僅是住酒店的房租。

定義不統一：

幾家平台都說自己流量第一，證據是平台播出的電視連續劇收視率第一。但是，各家的定義不一致，有的用平均收視率，有的用單集最高收視率，有的用首播重播合計收視率。

忽略測量誤差――

「李蕾的智商101，韓梅梅智商99，所以李蕾比韓梅梅聰明。」但是，任何測量都有誤差，結果應該加上一個區間，比如±3%。這樣，李蕾和韓梅梅的智商范圍有重合，不能斷定誰比誰聰明。

差別過小沒有現實意義：

「某次大規模的智商測試結果，男生平均106.1，女生平均105.9。」即使這個差異在統計上存在，由於差異過小也沒有現實意義。

參照對象不清――

「這款榨汁機的榨汁功能增強了26%。」這是跟誰比？如果是跟老式手搖榨汁機比呢？

比較時忽略基數：

「高速公路晚上7點的事故是早上7點的4倍，所以早上出行生還幾率高4倍。」其實，晚上事故多，只是因為晚上高速公路上的車和人更多。

對象不同強行比較――

「美國和西班牙交戰期間，美國海軍的死亡率是9‰，同時期紐約市居民的死亡率是16‰，所以海軍士兵更安全。」其實，這兩組對象不可比。海軍主要是體格健壯的年輕人，而城市居民包括嬰兒、老人、病人，這些人在哪裡死亡率都高。

變換基數讓人產生幻覺：

50%折扣再打20%折扣，會讓你以為有70%的折扣。實際上，折扣只有60%，因為後面20%的折扣是用5折後的價格計算的。

用數字游戲控制聽眾感覺：

投資回報率第一年為3%，第二年為6%。下面兩個說法都是對的：1.提高了3個百分點；2.增長高達100%。怎麼呈現，取決於你要讓聽眾感受到什麼。

操縱數據的產生――

這方面的案例也很多，比如：

演算法採用的規則有差異：

試驗用兩種演算法來判斷交通違規行為：一種是「嚴格遵守法律條文」，簡稱條文版，車速一過線就開罰單。另一種是安全原則，如果車速在當時的狀況下是安全的，就不判罰。比如周圍沒有車，或者大家速度都很快，你慢下來就是一個移動的石頭，反而對安全不利。這種規則能「准確反映法律意圖」，因此簡稱意圖版。

試驗做下來，同樣的交通狀況，條文組的演算法開出了500張罰單，而意圖組的演算法只開出了1張罰單。你說，交通違規的現象是嚴重還是不嚴重呢？

實驗條件設置錯誤：

有一份得了省級獎的論文，說阿膠的營養效果好，做法是先把老鼠搞到營養不良，然後給老鼠吃阿膠，結果各種數據都優於對照組。看起來，阿膠似乎真的有效，但是一看對照組，只給那些營養不良的老鼠喝清水。這相當於給東西吃和不給東西吃的區別，而不是阿膠和普通營養方式的區別，實驗結論當然不可靠。

為了防止杠精，強調一下，是說這篇論文的結論不可靠，不是討論阿膠有沒有營養。

提問的次序影響回答者的選擇：

調查顯示，向女性調查時，如果先提問關於服裝廣告的問題，再問一般性廣告的問題，女性對廣告的態度就更多是正面的。

向一般人調查，類似的次序問題也存在。比如，先問婚姻生活是不是幸福，再問整體生活是不是幸福，回答者會自動把自己婚姻生活的感受排除，評價整體生活。反過來則相反。

操縱數據的解釋――

還是舉幾個例子給你感受一下：

歸因錯誤：

一位飛行教官非常自信地說，「批評使人進步，表揚使人退步。」因為教官發現，只要他表揚了學員，第二天學員的表現肯定會變差，批評學員就會反過來，第二天的表現會更好。

實際上，這是一個回歸現象。如果今天學員達到了被表揚的程度，就說明他今天的表現超過了自己的平均線，第二天向自己的平均水平回歸是正常的。

因果關系不成立：

在印度，研究人員發現，看電視的人對男女平等的態度更加積極。這指示我們應該普及電視來改變印度農村地區對女性的態度嗎？

真實的情況是，教育程度好的人才買得起電視，而教育程度好的人對男女平等的態度更開明。經常看電視與男女平等積極的態度之間不是因果關系，而是伴隨關系。

理論適用錯誤：

網上有段子說，漢朝是8000人養1個公務員，唐朝是3000人，明朝是2000人，清朝是1000人，而今天是18個人，暗示這個時代的公務員太多了。

這個錯誤是沒有條件地按比例放大或縮小。隨著人口規模的上升，公共服務需要的人數不是按線性比例增加的，應該是按幾何程度增加的。只有在合理的理論框架下，才能評價18個人養1個公務員是多還是少……

閱讀全文

與數據整理陷阱有哪些相關的資料

熱點內容

如何清理網路的數據發布：2025-03-11 05:56:54 瀏覽：63

怎麼在手機上製作健康打卡小程序發布：2025-03-11 05:37:54 瀏覽：200

玖富萬卡退息如何走法律程序發布：2025-03-11 05:35:41 瀏覽：75

華為標配數據線傳輸速率是多少發布：2025-03-11 05:26:49 瀏覽：804

電子表格閃退數據怎麼恢復發布：2025-03-11 05:25:07 瀏覽：687

油塔幣在哪個交易所發布：2025-03-11 05:23:37 瀏覽：752

北海市場買哪個牌子好發布：2025-03-11 05:23:04 瀏覽：935

劉庄哪個海鮮市場便宜發布：2025-03-11 05:19:05 瀏覽：972

算當月的成本需要導入哪些數據發布：2025-03-11 05:16:52 瀏覽：539

維持聯合數據的目標價多少發布：2025-03-11 05:05:23 瀏覽：386

1500條公民財產信息判多久發布：2025-03-11 04:55:37 瀏覽：175

做什麼生意最賺錢成本低代理發布：2025-03-11 04:45:02 瀏覽：712

菜市場雞怎麼挑選口感好發布：2025-03-11 04:44:57 瀏覽：640

永康職業技術學院有哪些發布：2025-03-11 04:26:51 瀏覽：83

安郡保險理財產品有哪些發布：2025-03-11 04:25:24 瀏覽：321

數據話題你知道哪些發布：2025-03-11 04:24:48 瀏覽：909

代理酒廠一年能掙多少錢發布：2025-03-11 04:23:59 瀏覽：427

南沙代理記賬怎麼樣發布：2025-03-11 04:06:29 瀏覽：829

時光代理人陸光是什麼人發布：2025-03-11 04:05:26 瀏覽：167

房源的區位信息有哪些發布：2025-03-11 03:52:13 瀏覽：214