『壹』 大數據起源,給你解析到底什麼是大數據
大數據,英文名big data。因為傳播已經成為習慣,我們並沒有過多的去思考為什麼用big data去描述,但是現在我們仔細回味一下,會發現大數據這個大為什麼不用large為什麼不用海量vast呢?歸根結底我們可能就需要從語法上,來分析一下,它們三個之間的區別。big形容大小。更多的時候,是一種比較行為上的大,是種相對來說的感覺,而large和vast更多的時候形容的是的是一種形體上的巨大。
那麼現在來推敲一下big data這個詞,大數據這個大其實是一種相對的說法是相對於傳統的數據體量來說的,過去任何時候的數據相對於現在來說都顯得太過於渺小,而現在我們所說的大數據是一種量變最後達到了質變的概念。
數據這個詞最早在媒體上風靡應該是2007年左右。往上追溯應該就是05年穀歌參加有美國官方舉辦的一個機器翻譯大賽,最終由於使用了海量的相關數據而奪得第一,在那之後大數據這個概念漸漸的被業內人士所傳播。那麼到底什麼是大數據呢?
大數據顧名思義,最表象的特徵就是數據量夠大。但是僅僅數據量夠大,並不能構成大數據整體的含義。如果是海量雜亂無章,互之間沒有關聯的數據,即便再怎麼定義,它也算不上是大數據。就譬如一個人體內的基因圖譜,詳細的基因圖譜數據如果記錄出來是一個很大體量的,但是沒有意義。
大數據而且還有個概念,那就是多維度。在十年前,如果說國內哪一家公司最有資格說大數據的,那無疑是網路了。作為一個獨佔13億用戶專屬的搜索公司來說,網路對於用戶畫像的記錄,無疑是多維的。網路搜索,至今記錄了無數用戶每天在互聯網上搜索的問題,或者說知識。在時間維度上用戶對某些詞彙搜索的頻次高低這些都是數據。它可以通過對注冊用戶的甄別就可以知道搜索這個詞彙或者是這個問題的用戶是男生還是女生?年齡分布是是小孩、青年抑或是一個中年大叔?再到後來個人電腦開始普及,通過記錄ip等信息,根據ip搜索的網路的問題的分類,可以判斷中國各個區域,是南方富裕一點,還是北方富裕點?是江蘇人更愛吃,還是閩南人更喜歡談論吃?網路完全可以根據自己的數據生成得到國內各種關於此類的數據,普查之後所能得到的答案這就是因為網路所具有的數據是一個多維度的數據。他的數據收集過程,是一個長期的持續性的工作。
除了網路之外,騰訊的qq確實每年都會有一個關於qq的城市報告。它會根據qq的用戶數據,甚至於至於活躍地點。在一個大的范圍內青年QQ用戶的佔比,最終可以得到中國城市年輕度排行榜。可以根據這些數據判斷,哪一個城市是,年輕人畢業之後最願意去的。可以判斷哪一個城市的,年輕人畢業之後,是回歸率最高的。也可以判斷哪一個城市的人才流失率更低,更容易留住外來人才。這些都是大數據多維度的應用。
大數據還有一個非常重要的特點,那就是全面性。經常在某些大型活動之前我們都會遇到。某些公司對於這件事情,會做出預測。然後最終的結果讓我們大失所望。預測無疑是需要基於數據基礎的預測,如果這個數據不夠全面的話,最終的預測結果肯定相差甚大。
關於數據全面性有一個最經典的案例這是12年美國大選大選事件。一個名叫斯威爾的年輕人,利用大數據預測。成功預測出了51個州的選舉果,要知道這在之前是從來沒有發生過的事情。美國大選在之前就一直有專業的預測機構做預測,但是就連這種長期做數據,分析的公司都從來沒有如此成功的預測過。那是因為斯威爾將網上所有關於選舉的數據,包括新聞稿,以及facebook和推特上面人們關於選舉的言論,所有的數據都做了甄選處理。這份數據反映的是網民全面幾乎沒有遺漏的想法,最終得到了某種程度上來說,比較具有完備性的數據,所以能夠如此成功的預測13年美國大選的結果。
『貳』 大數據主要來源於什麼
來源:從技術上看,大數據與雲計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須採用分布式架構。它的特色在於對海量數據進行分布式數據挖掘。但它必須依託雲計算的分布式處理、分布式資料庫和雲存儲、虛擬化技術。
大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)資料庫、數據挖掘、分布式文件系統、分布式資料庫、雲計算平台、互聯網和可擴展的存儲系統。
大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。
(2)大數據起源是什麼擴展閱讀:
大數據離不開雲處理,雲處理為大數據提供了彈性可拓展的基礎設備,是產生大數據的平台之一。自2013年開始,大數據技術已開始和雲計算技術緊密結合,預計未來兩者關系將更為密切。除此之外,物聯網、移動互聯網等新興計算形態,也將一齊助力大數據革命,讓大數據營銷發揮出更大的影響力。
想要系統的認知大數據,必須要全面而細致的分解它,著手從三個層面來展開:
第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。在這里從大數據的特徵定義理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。
第二層面是技術,技術是大數據價值體現的手段和前進的基石。在這里分別從雲計算、分布式處理技術、存儲技術和感知技術的發展來說明大數據從採集、處理、存儲到形成結果的整個過程。
第三層面是實踐,實踐是大數據的最終價值體現。在這里分別從互聯網的大數據,政府的大數據,企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。
『叄』 大數據的三大主要來源
1、開源數據
開源數據包括了互聯網數據、移動數據網數據,互聯網平台和移動互聯網平台通過采、編、發或者通過用戶互動產生的數據,公之於眾,供網民或用戶訪問、瀏覽。
2、業務數據
業務數據產生於各單位的信息化系統中,尤其是內部的信息化系統,我們統稱為業務系統。在目前的單位業務系統中,存在於單位的OA系統或者CRM之中,其中蘊含了大量的工作數據和交易數據,以及客戶管理數據,包括交易數據、流水數據、記帳數據、借款數據、貸款數據等業務數據,這些數據構建了每天的系統日誌,同時又是帳戶余額、信用額度、購買能力等的有力補充,這些數據不僅對生產系統起到計費支撐作用,同時也是用戶(銀行客戶、電力客戶、擔保公司等)進行相關決策的重要基礎,所以目前很多單位需要對這些數據進行查詢統計和分析。
3、線路數據
無論是互聯網還是各種內網,任何的網路行為都需要經過「線路」進行鏈接和交互,而在這條線路上,要經過無數的路由交換得以完成,這條線路在完成鏈接的同時,也記錄與存貯了大量的數據,我們統稱為線路數據。
『肆』 大數據的起源是金融還是公共管理,互聯網
大數據的起源是互聯網。大數據目的是為了更好了解客戶喜好,它將海量碎片化的信息數據進行篩選、分析,並最終歸納、整理出企業需要的咨訊。而這些海量的信息則來源於互聯網。
資料擴展
大數據主要的幾個應用領域及發展前景
1.電商行業是最早利用大數據進行精準營銷,它根據客戶的消費習慣提前生產資料、物流管理等,有利於精細社會大生產。
2.大數據在金融行業應用范圍是比較廣的,它更多應用於交易,現在很多股權的交易都是利用大數據演算法進行,這些演算法現在越來越多的考慮了社交媒體和網站新聞來決定在未來幾秒內是買出還是賣出。
3.大數據還被應用改善我們日常生活的城市。例如基於城市實時交通信息、利用社交網路和天氣數據來優化最新的交通情況。目前很多城市都在進行大數據的分析和試點。
4.基因技術是人類未來挑戰疾病的重要武器,科學家可以藉助大數據技術的應用,從而也會加快自身基因和其它動物基因的研究過程,這將是人類未來戰勝疾病的重要武器之一,未來生物基因技術不但能夠改良農作物,還能利用基因技術培養人類器官和消滅害蟲等。
『伍』 大數據來源於什麼
早在1980年,著名未來學家托夫勒在其所著的《第三次浪潮》中就熱情地將「大數據」稱頌為「第三次浪潮的華彩樂章」。2008年9月《自然》雜志推出了名為「大數據」的封面專欄。從2009年開始「大數據」才成為互聯網技術行業中的熱門詞彙。
到了2011年6月,麥肯錫公司看到了各種網路平台記錄的個人海量信息具備潛在的商業價值,於是投入大量人力物力進行調研,並發布了關於「大數據」的報告,該報告對「大數據」的影響、關鍵技術和應用領域等都進行了詳盡的分析。麥肯錫的報告得到了金融界的高度重視,而後逐漸受到了各行各業關注。
『陸』 大數據信息來源於哪裡為什麼有虛假
大數據概念最初起源於美國,是由思科、威睿、甲骨文、IBM 等公司倡議發展起來的。大約從2009年始,「大數據」成為互聯網信息技術行業的流行詞彙。
大數據是一個不斷演變的概念,當前的興起,是因為從IT技術到數據積累,都已經發生重大變化。當今世界,大數據無處不在,它影響到了我們的工作、生活和學習,並將繼續施加更大的影響。
關於「大數據」概念產生的來龍去脈:
「大數據」的名稱來自於未來學家托夫勒所著的《第三次浪潮》
盡管「大數據」這個詞直到最近才受到人們的高度關注,但早在1980年,著名未來學家托夫勒在其所著的《第三次浪潮》中就熱情地將「大數據」稱頌為「第三次浪潮的華彩樂章」。《自然》雜志在2008年9月推出了名為「大數據」的封面專欄。從2009年開始「大數據」才成為互聯網技術行業中的熱門詞彙.
最早應用「大數據」的是麥肯錫公司(McKinsey).對「大數據」進行收集和分析的設想,來自於世界著名的管理咨詢公司麥肯錫公司。麥肯錫公司看到了各種網路平台記錄的個人海量信息具備潛在的商業價值,於是投入大量人力物力進行調研,在2011年6月發布了關於「大數據」的報告,該報告對「大數據」的影響、關鍵技術和應用領域等都進行了詳盡的分析。麥肯錫的報告得到了金融界的高度重視,而後逐漸受到了各行各業關注。
「大數據」的特點由維克托•邁爾-舍恩伯格和肯尼斯•庫克耶在《「大數據」時代》中提出維克托•邁爾-舍恩伯格和肯尼斯•克耶編寫的《大數據時代》中提出:「大數據」的4V特點:
Volume(數據量大)
Velocity(輸入和處理速度快)
Variety(數據多樣性)
Value(價值密度低)
『柒』 人人都在說大數據,那大數據概念是怎麼產生的
概念產生:
「大數據」的名稱來自於未來學家托夫勒所著的《第三次浪潮》 盡管「大數據」這個詞直到最近才受到人們的高度關注,但早在1980年,著名未來學家托夫勒在其所著的《第三次浪潮》中就熱情地將「大數據」稱頌為「第三次浪潮的華彩樂章」。《自然》雜志在2008年9月推出了名為「大數據」的封面專欄。從2009年開始「大數據」才成為互聯網技術行業中的熱門詞彙。
『捌』 大數據有哪些來源
大數據分析的數據來源有很多種,包括公司或者機構的內部來源和外部來源。分為以下幾類:
1)交易數據。包括POS機數據、信用卡刷卡數據、電子商務數據、互聯網點擊數據、「企業資源規劃」(ERP)系統數據、銷售系統數據、客戶關系管理(CRM)系統數據、公司的生產數據、庫存數據、訂單數據、供應鏈數據等。
2)移動通信數據。能夠上網的智能手機等移動設備越來越普遍。移動通信設備記錄的數據量和數據的立體完整度,常常優於各家互聯網公司掌握的數據。移動設備上的軟體能夠追蹤和溝通無數事件,從運用軟體儲存的交易數據(如搜索產品的記錄事件)到個人信息資料或狀態報告事件(如地點變更即報告一個新的地理編碼)等。
3)人為數據。人為數據包括電子郵件、文檔、圖片、音頻、視頻,以及通過微信、博客、推特、維基、臉書、Linkedin等社交媒體產生的數據流。這些數據大多數為非結構性數據,需要用文本分析功能進行分析。
4)機器和感測器數據。來自感應器、量表和其他設施的數據、定位/GPS系統數據等。這包括功能設備會創建或生成的數據,例如智能溫度控制器、智能電表、工廠機器和連接互聯網的家用電器的數據。來自新興的物聯網(Io T)的數據是機器和感測器所產生的數據的例子之一。來自物聯網的數據可以用於構建分析模型,連續監測預測性行為(如當感測器值表示有問題時進行識別),提供規定的指令(如警示技術人員在真正出問題之前檢查設備)等。
5)互聯網上的「開放數據」來源,如政府機構,非營利組織和企業免費提供的數據。