導航:首頁 > 數據處理 > 大數據數據混雜是如何產生的

大數據數據混雜是如何產生的

發布時間:2024-06-25 22:34:40

⑴ 理解大數據時代的數字鴻溝

理解大數據時代的數字鴻溝
大數據是近幾年來炙手可熱的話題,大數據的優勢以及大數據所帶來的新思潮形成研究熱潮。從隨機抽樣到全體樣本,從要求精確到應對混雜,從追求因果到發現關聯,大數據時代改變著我們的信息環境與信息處理思維模式。但是,並非所有的人都能同時走入大數據時代,如同媒介技術的每一次創新與擴散一樣,敏感的企業和組織是大數據的先行者和實踐者,也是最早的大數據受益者;而普通的個體則在面對大數據時呈現差異,有的在時間上跟進遲緩,有的在數據分析能力上存在欠缺,有的不知道如何尋找開放數據,有的在數據噪音前不知所措。傳統互聯網時代的數字鴻溝尚未完全填平,而在大數據時代新的數字鴻溝又在形成並不斷影響與改變著人們的政治經濟地位。
討論大數據時代的數字鴻溝,需要明確區分「數字差異」與「數字鴻溝」.從詞源上看,兩者意義接近,都是由「Digital Divide」翻譯而來。但從傳播效果或情感色彩上看,數字鴻溝比數字差異更能引起人們的警示。在大數據時代,人們創造數據並被數據所包圍,囿於人的視野及精力,人們在面向數據並做出選擇時必然會出現差異。比如,互聯網提供的個性化的搜索引擎,個性化藏夾等都會導致信息瀏覽的個人化,大數據時代的數字差異不可避免。數字鴻溝比數字差異更能引起人們的警惕,數字鴻溝更強調在認識和機會上的差異。數字差異是知道有機會而不為,數字鴻溝則是想為而沒有能力或機會。同在大數據背景之下,數字鴻溝可能會在擁有數據、分析數據和數據思維三個層面存在數字鴻溝。
三個不同的分析維度
(一)擁有數據的數字鴻溝
大數據時代,「全新」「、革命」「、顛覆性」等術語頻繁出現,但「大數據」這一標簽下所指涉的問題卻由來已久。伴隨著互聯網的勃興,數據的指數增長、信息超載和數據處理問題等一直是人們不得不面對的問題。在大數據時代,數據的掘取、存儲、處理與應用方面的技術有了快速的發展,但是在誰擁有數據這個造成數字鴻溝最基本的問題上,當下關於大數據的討論並未給出讓人滿意的答案。
1.數據開放
對於企業和政府來講,大數據是一筆寶貴的財富,「對大數據的掌握可以轉化為經濟價值的來源」也可以從更為准確的角度了解社會,並進行管理。因此,企業和政府需要從普通公眾那裡搜集數據,數據的傳播是一種自下而上的過程,最先擁有和掌控大數據的也是來自企業和政府的「數字先鋒」.但是,消弭數字鴻溝恰恰需要另一種形式的數據流動,即開放數據---讓數據從企業和政府所有而變成被公眾所共享,這是一個自上而下的過程。在現實生活中,這種自上而下的信息流動處處面臨著阻力:一方面企業把數據當做核心競爭力或者核心機密,並且花費了大量的人力、物力、財力去做數據分析,因此很難實現數據的共享;另一方面政府的數據公開步伐還比較緩慢,公眾獲得有價值的信息依然有難度。
數據開放所形成的數字差異需要開放數據來解決。哪些數據能夠開放,以何種形式向公眾開放,具體的實施者是誰,誰又能為數據開放過程中的「搭便車」行為買單都是需要思考的問題。大數據既可以產生商業價值,同時又兼具公共性的特質,在此過程中,和公眾利益密切相關的數據需要開放,我國早在 2007 年 1 月 17 日就通過了《中華人民共和國信息公開條例》,明確規定原則、范圍、方式、程序和監督保障制度。在大數據時代,政府開放數據的力度應該進一步加大,同時對公眾進行獲取數據的素養教育,實現數據的民有和民享。作為一種公共資源,數據分配的公平性和財富分配的公平性一樣,都會對社會結構產生非常大的影響,政府和企業可以依靠數據存儲與分析技術的發展做「數據銀行」業務,讓每個公民都有機會在「數據銀行」存儲和提取自己想要的數據。國內學者塗子沛在《大數據》一書中,把開放數據放在數據民主的角度去思考,指出開放數據運動會推動「開放政治、開放政府、開放媒體、開放城市等等一系列的運動和口號」.這對消除數據所有權所形成的數字鴻溝,建設一個數據公平的美麗新世界提供了一條可行之路。
2.數據搜集
大數據時代的基礎在於海量數據,究竟多大才是大數據呢?「麥肯錫全球研究所」的最新報告對大數據下了一個定義:「大數據是指大小超出了傳統資料庫軟體工具的抓取、存儲、管理和分析能力的數據群」而且,大數據的標准隨著數據的指數增長也在不斷發生變化。今天,我們在談論大數據時往往以 pb 為單位,海量數據提供了更為詳細的信息,但是也存在一些隱憂,即數據的價值密度太小,因而搜集數據以及在海量數據中尋找有價值信息的成本太高。舍恩伯格在接受《中國經濟周刊》記者謝瑋專訪時說:「在許多方面,我們仍然生活在一個『小數據』時代,在這個時代收集數據非常耗時、昂貴和困難。」大數據時代的數據搜集是一項龐大的工程,而且,大數據還遠遠未達到普通人能夠支付得起的階段。
搜集數據的數字鴻溝在大數據時代似乎沒有減少,反而隨著大數據處理技術的發展而在逐步擴大。對於媒體和企業來講,搜集數據和處理數據都並非易事,著名的《哈佛商業評論》雜志對全球財富1000強的企業應用大數據的情況做了一項科學調研,發現「大多數企業還處於大數據的入門階段,還小具備真正挖掘大數據的能力」,而且,「只有巧%的受訪者認為所在企業的數據可訪問性夠好或者達到世界級水平,只有21%的受訪者認為所在企業的分析能力夠好或者達到世界水平」.顯然,對於普通公眾來說,搜集數據、挖掘數據的難度更大,差異也更大。在搜索引擎主宰信息流向的時代,公眾就因為使用不同的搜索引擎而產生數字鴻溝,使用普通的搜索引擎與使用較為專業的搜索引擎和資料庫之間存在著差異。在大數據時代,公眾不僅要知道如何利用專業的搜索引擎,還需要在海量的信息中迅速尋找最有價值的信息,囿於公眾能力的差異,在搜集階段產生的數字鴻溝將難以避免。而且,互聯網下的數據處於不斷更新的狀態,時效性是非常重要和關鍵的。在對「知識鴻溝」的研究中,西方學者 J.S.艾蒂瑪和 F.G.克萊因曾經提到「上限效果」,指的是隨著時間的推移,知識鴻溝會逐漸減少。但是在互聯網時代,信息的價值和及時性有密切的關系,即使隨著時間的推移公眾在搜集數據上的「鴻溝」逐漸縮小,但是後來者所擁有的數據價值也會大打折扣。媒介環境學派的代表性人物萊文森對信息超載的論述可能會對緩解大數據時代數據搜集所產生的差異提供幫助,他認為建立信息分類法則可以解決信息超載的困擾,比如在圖書上建立圖書分類法則並依據這一法則運作,就能夠解決圖書館的信息超載問題,這一思想對解決長期困擾人類的信息超載具有普遍的啟示意義。
(二)分析數據的數字鴻溝
誰擁有數據會產生差異,而在同等擁有數據的情況下,公眾利用數據的能力不同,也會產生差異。大數據既包含以數量關系為基礎的結構化數據,也包含以定性描述為主的非結構化數據,而且,非結構化數據往往佔有很大的比例。因此,在大數據時代,同樣擁有數據並不代表著同樣能夠利用數據,分析數據和掘取價值上的數字鴻溝依然需要引起我們的警惕。
1.數據刪除
大數據時代是一個信息高度碎片化的時代,信息中的重復、噪音、冗餘和信息中的人為因素(網路水軍)等,都影響到人們對數據的分析與利用,此時,刪除數據與收集數據同樣重要。除《大數據時代:生活工作與思維的大變革》之外,舍恩伯格還有一部影響深刻的著作-《刪除:大數據取捨之道》。在這部著作中,舍恩伯格提醒人們在大數據時代「記憶成為常態,而遺忘成為例外」,因此要注意信息取捨之道;在這個「沒有遺忘的世界裡」,遺忘恰恰成為一種寶貴的信息處理方式與權利數據刪除是一個人性化的問題,隨著「電腦原生代」的成
長,每個人都有著青澀的、尷尬的、甚至小堪回首的過去,互聯網之前人們會嘗試遺忘這些小愉快的過去,但是互聯網的記憶讓每個人小得小而對這樣一個現實:人們可能會為若十年前犯過的錯誤買單。
刪除同樣是一個技術性的問題,在互聯網時代,歷史悠久的數據會逐漸成為「數據垃圾」,不但佔用大量的存儲資源,而且也會影響對當下數據的分析,評估數據與刪除數據成為大數據時代必不可少的數據處理方式。但是具體到個人就會產生一個問題,人不可能像機器一樣去評估和處理,只能按照過往的經驗來處理信息。另一位國外學者蒂奇諾在分析「知識鴻溝」所形成的原因時提到,個人的信息儲備也會產生「知識鴻溝」,即「正規教育和從大眾媒體中獲得的信息會幫助受教育程度較高的人提供理解知識的背景」.大數據時代並未改變人們接受信息的習慣,因此,在大數據時代依然是受教育程度較高的人先學會接受和刪除信息。刪除還有一個頗具哲學意味的意義,在大數據時代,選擇即刪除。人對數據的接受具有零和效果「,朝向一組數據的同時意味著放棄另外的數據,這也是另外一種意義上的刪除,處理掉低質量的過時數據是發現大數據意義的前提。知名學者馬修·E·梅所著的《精簡:大數據時代的商業致勝法則》,同樣也提到大數據時代的信息刪除與精簡問題。在大數據時代,能夠快速在第一時間獲得最有價值數據的企業會逐漸發展起來,而不懂大數據或沉迷於大數據的企業會逐漸落伍。
2.數據可用
大數據時代提供了一個多元、詳細且復雜的數據環境,在大數據時代,一切現實都可以量化為數據。但是如果用大數據來創造價值就需要從海量數據中找出有價值的數據,並把數據還原為現實。因為」,擁有一個數據集,無論它們多大或者多小,其自身都不會帶來任何價值。「大數據的最終價值還是體現在數據的」可用「之上。與此同時,關於數字鴻溝的問題也出現在數據的」可用「上,大數據如同提供了一個美味的堅果,不藉助工具很難打開它,而大數據所使用的」雲存儲、雲計算「又不是任何公眾都能輕易掌握的。少部分人掌握了分析數據與應用數據的能力,還有相當多的大眾面對浩如煙海的大數據不知所措,最終陷入信息超載的焦慮之中。
彌補數據可用的」數字鴻溝「需要讓數據變得直觀而可視,這仍然是一個涉及公共性的話題。把數據還原為現實既需要數據分析的人工智慧技術,也需要人的敏銳的分析與判斷能力,更為關鍵的是,需要把對數據所提示的環境真實地傳達給公眾。政府和媒體要做的依然很多,首先需要數據處理技術的普及,把解讀關於公共事務的大數據當做一個公共事業,如在 20世紀 60 年代,被稱為」人工智慧之父「的約翰·麥卡錫曾預言」有朝一日,計算可能變成公共設施「.其次,媒體要做好數據與現實之間」擺渡人「的角色,不僅要用大數據來分析受眾獲得收益,更要體現媒體的公共性,讓受眾能夠讀懂大數據並受用於大數據。比如,美國記者在報道龍卷風時」將龍卷風破壞房屋的損毀數據,與地圖相重疊,製成大數據地圖。「這樣,受眾既能夠比較精確地了解龍卷風帶來災害的大體區域,又能夠精確理解某個區域龍卷風造成損失的具體情況。
(三)數據思維的數字鴻溝
大數據熱所帶來的重要變化是關於數據思維的變化,關於大數據的討論有很多,但並非有了」大數據「這樣一個概念我們的信息環境就自然而然發生了質的變化,而是在互聯網逐漸走向海量數據的今天,從」數字化生存「轉向」數據化生存「的大數據思維讓人們多了一個認識世界的視角。在大數據技術之外的數字鴻溝來自於人們的思維層面,即人們對待數據的思維存在差異。
1.超越大數據
大數據時代的思維之一是要超越」數據迷思「,把數據當成一種工具而不是一種數據霸權。舍恩伯格在《大數據時代》一書中指出大數據帶來的三種變化:不是隨機樣本,而是全體數據;不是精確性,而是混雜性;不是因果關系,而是相關關系。這些變化對於傳統的定量研究方法有極大的影響,可是定量方法的改進並不能取代定性的研究,必須超越數據才能發現數據背後的意義與價值。於是,大數據思維包含了三個層次。第一個層次是發現海量數據,了解海量數據的潛在價值,但並不能很好的利用數據;第二個層次是能夠較好的利用數據,但是往往陷入數據崇拜,解決不了關於意義的問題;第三個層次是能夠利用數據,但是也能夠同時超越數據,發現價值。這三個層次在大數據的發展過程中既是一個歷時的過程,也是一個共識的過程。大數據概念的興起與擴散還需時日,因此在數據思維上三個層次的」數字鴻溝「仍將長期存在。
2.大數據素養
數字鴻溝的減小也需要在硬體與軟體兩個方向上作出努力,在大數據時代仍然如此。從最近幾年的中國互聯網路統計報告來看,硬體的數字鴻溝在逐漸縮小,而軟體的數字鴻溝仍在擴大。消弭數字鴻溝需要政府、企業等開放公共數據並提供利用公共數據的方法,還需要提升全體公民的大數據素養,實現大數據的民有與民享。數據素養也被稱為數據信息素養,主要指人們在科學數據的採集、組織和管理、處理和分析、共享與協同創新利用等方面的能力,以及在數據的生產、管理和發布過程中的道德與行為規范。全面提高全民的數據素養,我們才能自信地迎接大數據時代的到來,並利用大數據為人類創造新的福祉。

⑵ 大數據時代是什麼意思大數據是在什麼背景下提出的

大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。

大數據產生背景:

進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。

它已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。

數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。

正如《紐約時報》2012年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。

哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。

(2)大數據數據混雜是如何產生的擴展閱讀

大數據時代的特徵

1、數據量大(Volume)

第一個特徵是數據量大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。

2、類型繁多(Variety)

第二個特徵是數據類型繁多。包括網路日誌、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求。

3、價值密度低(Value)

第三個特徵是數據價值密度相對較低。如隨著物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器演算法更迅速地完成數據的價值「提純」,是大數據時代亟待解決的難題。

參考資料來源:網路-大數據時代

⑶ 如何看待大數據的精確性和混雜性

在大數據時代,使用所有能獲得的全體數據已經逐漸成為可能,然而數據量的大幅度增加會導致結果的不準確,與此同時。有些錯誤的數據也會隨著大量的數據混入資料庫。

其中的某些錯誤是我們能夠通過我們的努力去避免的,去改變的,但是,有些錯誤我們需要去慢慢接受它們。去嘗試著,接收混亂,擁抱錯誤。

接收混亂是小數據和大數據時代主要的區別之一。由於少量的數據,使得我們努力追求更加精密的結果,但是不妨多想想,低隨機性和小數據又怎麼可能將事物的本質全面的還原出來呢?錯失的95%的非結構化數據中包含著無限的可能,或許我們想要的正是我們曾經所丟棄的。



(3)大數據數據混雜是如何產生的擴展閱讀:

注意事項

紛繁的數據越多越好,大數據時代要求我們重新審視對於精確性的定義。在如今的信息時代,我們掌握的數據越來越全面,而且數據的存在並不是獨立的,數據之間的交互連接多變且無序,組合與組合之間更是能產生無窮的化學作用,奇妙無窮。

大數據要求我們有所改變,接收混亂和不確定性。精確性不會在成為我們生活中的支柱,每個問題只有一個答案的想法在信息時代是靠不住的,不管我們承認與否。但當我們學會接受混亂和擁抱混雜之後,我們會發現我們離事情的真相有進了一步。



⑷ 大數據的特點有哪些

根據《大數據時代》大數據的特點主要分為以下四點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)
一、Volume(大量)
大數據的特徵其實是我們現在理解的海量數據。「大數據」在互聯網行業是必備項:互聯網公司在日常運營中生成、累積的用戶網路行為的數據。比如社交電商平台每天的產生訂單, 各個短視頻、論壇、社區發布的帖子、評論及小視頻, 每天發送的電子郵件, 以及上傳的圖片、視頻與音樂,等等, 這些無數個體產生的數據規模很龐大,數據體量早已達到了PB級別以上,大數據的大量就是我們說的海量數據。
二、Velocity(高速)
隨著網路傳輸速率不斷攀升,從傳統的百兆到千兆萬兆網路,移動網路也已經逐步升級到了5G時代,數據的產生和傳輸都越來越高速。所以客戶越來越強調實時反饋,就是無論是在線看電影還是在線直播、刷視頻都要求低延時,對於傳輸、存儲、播放都要求高度,人們和企業都越來越依賴互聯網,網上的實時交易、在線培訓、社交等都與每個人息息相關,雲計算平台大數據平台擔負著高質量的服務功能,運營方還是服務商對於海量數據,誰能提供更快的速度,誰就能獲得更多的用戶和訂單!
三、Variety(多樣)
數據多樣性其種類包括文字、圖片、視頻、語音、地圖定位信息、網路日誌信息等等,正是多樣化的數據形式決定了大數據的更高價值。對於數據挖掘和數據資產越來越受到企業的重視,多類型的數據對數據的存儲和處理能力都提出了更高的要求。目前應用最廣泛的就是智能推薦系統,如今日頭條,網路、抖音等,這些平台都會通過對用戶的行為進行分析,從而智能地推薦用戶喜歡的內容頁面。
四、Value(低價值密度)
隨著物聯網的廣泛應用,往往人們需要從海量的數據中提取相關聯的有用的信息,所以對於大數據的機器學習深度學習演算法可以發揮巨大作用。大數據最大的價值在於通過從大量不相關的各種類型的數據中,挖掘出對未來趨勢與模式預測分析有價值的數據,並通過機器學習方法、人工智慧方法或數據挖掘方法深度分析,發現新規律和新知識。

閱讀全文

與大數據數據混雜是如何產生的相關的資料

熱點內容
哪些交易所大陸注冊 瀏覽:886
python爬取股票實時數據後如何下單 瀏覽:266
在區域代理拿桶裝水大概多少錢 瀏覽:608
逆行扣分一般多久能來信息 瀏覽:286
程序狀態反映了什麼 瀏覽:536
硬碟數據恢復是靠什麼 瀏覽:942
重慶哪個日料市場最大 瀏覽:493
九恆星產品有什麼用 瀏覽:642
移動代理商如何發展 瀏覽:69
汽車鈑金電腦數據復原多少錢一台 瀏覽:273
一個城市的美團外賣總代理多少錢 瀏覽:743
鏈一交易所怎麼下載的 瀏覽:402
怎麼查快遞信息是什麼東西 瀏覽:645
順豐速運騎手要買哪些產品 瀏覽:814
ajax怎麼傳遞json數據 瀏覽:897
通達信如何下載專業數據 瀏覽:965
眼鏡的發明使用了哪些新技術 瀏覽:984
政府會計應當提供的信息有哪些 瀏覽:147
沖壓產品如何報價 瀏覽:157
32歲程序員薪資開多少 瀏覽:421