1. 大數據安全問題有哪些類型
【導讀】大數據運用有助於公司改善事務運營並猜測職業趨勢。然而,這項技能可能會被歹意利用,如果沒有適當的數據安全策略,黑客就有可能對用戶隱私造成重大要挾。那麼,大數據安全問題有哪些類型呢?
1、散布式體系
大數據解決方案將數據和操作散布在許多體繫上,以便更快地進行處理和分析。這種散布式體系能夠平衡負載,並避免發生單點故障。然而,這樣的體系很簡單遭到安全要挾,黑客只需攻擊一個點就能夠滲透到整個網路。因而,網路犯罪分子能夠很簡單地獲取敏感數據並損壞連網體系。
2、數據拜訪
大數據體系需求拜訪控制來約束對敏感數據的拜訪,否則,任何用戶都能夠拜訪機密數據,有些用戶可能將其用於歹意目的。此外,網路犯罪分子能夠侵入與大數據體系相連的體系,以盜取敏感數據。因而,運用大數據的公司需求查看並驗證每個用戶的身份。
3、不正確的數據
網路犯罪分子能夠經過操縱存儲的數據來影響大數據體系的精確性。為此,網路罪犯分子能夠創立虛偽數據,並將這些數據提供給大數據體系,例如,醫療機構能夠運用大數據體系來研究患者的病歷,而黑客能夠修正此數據以生成不正確的診斷成果。這種有缺陷的成果不簡單被發現,公司可能會持續運用不精確的數據。此類網路攻擊會嚴重影響數據完整性和大數據體系的性能。
4、侵略隱私權
大數據體系通常包括機密數據,這是許多人十分關懷的問題。這樣的大數據隱私要挾現已被全球的專家們評論過了。此外,網路犯罪分子經常攻擊大數據體系,以損壞敏感數據。
以上就是小編今天給大家整理分享關於「大數據安全問題有哪些類型?」的相關內容希望對大家有所幫助。小編認為要想在大數據行業有所建樹,需要考取部分含金量高的數據分析師證書,這樣更有核心競爭力與競爭資本。
2. 怎樣有效識別數據分析模型中的認知陷阱
避免誤導:怎樣識別數據中的認知陷阱?
這一篇看看怎麼防止別人操縱數據來誤導我們。
首先要澄清一點,雖然我們使用了「操縱數據」這個說法,但是我們不關心動機問題,到底是有意欺騙、存心誤導,還是水平不夠犯了錯誤,我們不做判斷和分別。
我們就是從數據思維的角度,看看如何防止被誤導,不管對方是有意的,還是無意的。
還要澄清的一點是,我們這里討論的都是數據是真實的,只是被錯誤的使用,造成了誤導,不包括偽造數據的情況。
舉個例子:
有一家印度的承包商接受印度政府的委託,負責為難民提供食物保障,包括提供日用品和生活保證品。
但是,由於沒有難民的確切人數,所以這家承包商說要多少錢,政府就得掏多少錢。可是支出看起來實在是太大了,於是就有人建議請統計學家幫忙。
統計學家瞄準了三樣東西——大米、豆類食品和鹽。
如果一個人群的人數是穩定的,那麼這三種食品的消費量就是基本穩定的,因此它們可以交叉印證。結果發現,鹽估計出來的人數最少,大米估計出的人數最多。因為鹽的價格低、總量少,所以沒有人在這個地方誇大。而大米價格高、總量大,所以就有動機在這個地方做假賬。
這個案例就是通過偽造數據來達到非法的目的,是技術水平最低的騙子。這就不屬於我們在這里討論的內容。
利用真實的數據,通過各種操作手段誤導人,才是技術含金量比較高的工作。我們在這里主要討論這個方向。
通過操縱數據來誤導受眾大致有三個方向,分別是操縱數據的使用、操縱數據的產生和操縱數據的解釋。
操縱數據的使用――
這方面的案例太多了,給你舉幾個例子:
用平均數掩蓋分布:
「某公司有3003名股東,平均每人持股660股。」誤導你的真相是這樣的:公司總共200萬股,其中3名大股東持有3/4,其餘3000人總共持有1/4。
用百分比掩蓋規模:
「霍普金斯大學1/3的女生嫁給了大學老師。」但其實,總共只有3名同學錄取,其中1個人嫁給了老師。
用短期波動代替長期效應:
「衛生部最新公布,大霧的一周內倫敦市郊的死亡人數猛增至2800人。」這是因為大霧帶來的嗎?這個地方平均死亡人數如何?接下來的幾周死亡人數又是如何?
遺漏變化的原因:
「最近25年,癌症死亡人數增多。」聽起來嚇人,但其實很多因素更有解釋力。比如,以前很多病因不明的案例現在被確診為癌症;屍體解剖成為常用方法,便於明確診斷;醫學統計資料更全面;易發病年齡段人數增多。還有,現在的人數遠遠超過從前。
偷換概念――
「某議員提議:我們可以讓囚犯離開監獄,去住酒店,這樣反而更便宜。因為囚犯一天的費用是8美元,而住酒店只要7美元。」但其實,這里的8美元指囚犯所有的生活費,但是議員拿來比較的僅僅是住酒店的房租。
定義不統一:
幾家平台都說自己流量第一,證據是平台播出的電視連續劇收視率第一。但是,各家的定義不一致,有的用平均收視率,有的用單集最高收視率,有的用首播重播合計收視率。
忽略測量誤差――
「李蕾的智商101,韓梅梅智商99,所以李蕾比韓梅梅聰明。」但是,任何測量都有誤差,結果應該加上一個區間,比如±3%。這樣,李蕾和韓梅梅的智商范圍有重合,不能斷定誰比誰聰明。
差別過小沒有現實意義:
「某次大規模的智商測試結果,男生平均106.1,女生平均105.9。」即使這個差異在統計上存在,由於差異過小也沒有現實意義。
參照對象不清――
「這款榨汁機的榨汁功能增強了26%。」這是跟誰比?如果是跟老式手搖榨汁機比呢?
比較時忽略基數:
「高速公路晚上7點的事故是早上7點的4倍,所以早上出行生還幾率高4倍。」其實,晚上事故多,只是因為晚上高速公路上的車和人更多。
對象不同強行比較――
「美國和西班牙交戰期間,美國海軍的死亡率是9‰,同時期紐約市居民的死亡率是16‰,所以海軍士兵更安全。」其實,這兩組對象不可比。海軍主要是體格健壯的年輕人,而城市居民包括嬰兒、老人、病人,這些人在哪裡死亡率都高。
變換基數讓人產生幻覺:
50%折扣再打20%折扣,會讓你以為有70%的折扣。實際上,折扣只有60%,因為後面20%的折扣是用5折後的價格計算的。
用數字游戲控制聽眾感覺:
投資回報率第一年為3%,第二年為6%。下面兩個說法都是對的:1.提高了3個百分點;2.增長高達100%。怎麼呈現,取決於你要讓聽眾感受到什麼。
操縱數據的產生――
這方面的案例也很多,比如:
演算法採用的規則有差異:
試驗用兩種演算法來判斷交通違規行為:一種是「嚴格遵守法律條文」,簡稱條文版,車速一過線就開罰單。另一種是安全原則,如果車速在當時的狀況下是安全的,就不判罰。比如周圍沒有車,或者大家速度都很快,你慢下來就是一個移動的石頭,反而對安全不利。這種規則能「准確反映法律意圖」,因此簡稱意圖版。
試驗做下來,同樣的交通狀況,條文組的演算法開出了500張罰單,而意圖組的演算法只開出了1張罰單。你說,交通違規的現象是嚴重還是不嚴重呢?
實驗條件設置錯誤:
有一份得了省級獎的論文,說阿膠的營養效果好,做法是先把老鼠搞到營養不良,然後給老鼠吃阿膠,結果各種數據都優於對照組。看起來,阿膠似乎真的有效,但是一看對照組,只給那些營養不良的老鼠喝清水。這相當於給東西吃和不給東西吃的區別,而不是阿膠和普通營養方式的區別,實驗結論當然不可靠。
為了防止杠精,強調一下,是說這篇論文的結論不可靠,不是討論阿膠有沒有營養。
提問的次序影響回答者的選擇:
調查顯示,向女性調查時,如果先提問關於服裝廣告的問題,再問一般性廣告的問題,女性對廣告的態度就更多是正面的。
向一般人調查,類似的次序問題也存在。比如,先問婚姻生活是不是幸福,再問整體生活是不是幸福,回答者會自動把自己婚姻生活的感受排除,評價整體生活。反過來則相反。
操縱數據的解釋――
還是舉幾個例子給你感受一下:
歸因錯誤:
一位飛行教官非常自信地說,「批評使人進步,表揚使人退步。」因為教官發現,只要他表揚了學員,第二天學員的表現肯定會變差,批評學員就會反過來,第二天的表現會更好。
實際上,這是一個回歸現象。如果今天學員達到了被表揚的程度,就說明他今天的表現超過了自己的平均線,第二天向自己的平均水平回歸是正常的。
因果關系不成立:
在印度,研究人員發現,看電視的人對男女平等的態度更加積極。這指示我們應該普及電視來改變印度農村地區對女性的態度嗎?
真實的情況是,教育程度好的人才買得起電視,而教育程度好的人對男女平等的態度更開明。經常看電視與男女平等積極的態度之間不是因果關系,而是伴隨關系。
理論適用錯誤:
網上有段子說,漢朝是8000人養1個公務員,唐朝是3000人,明朝是2000人,清朝是1000人,而今天是18個人,暗示這個時代的公務員太多了。
這個錯誤是沒有條件地按比例放大或縮小。隨著人口規模的上升,公共服務需要的人數不是按線性比例增加的,應該是按幾何程度增加的。只有在合理的理論框架下,才能評價18個人養1個公務員是多還是少……