『壹』 大數據有哪些常用的平台
大數據有三個主要部分,分別是數學,統計學和計算機等學科。大數據基礎知識往往決定了開發人員未來的成長高度,所以要重視基礎知識的學習。
大數據平台是對海量結構化、非結構化、半機構化數據進行採集、存儲、計算、統計、分析處理的一系列技術平台。大數據平台處理的數據量通常是TB級,甚至是PB或EB級的數據,這是傳統數據倉庫工具無法處理完成的,其涉及的技術有分布式計算、高並發處理、高可用處理、集群、實時性計算等,匯集了當前IT領域熱門流行的各類技術。
(1)最近有什麼好的hdp數據擴展閱讀:
注意事項:
大數據的第一站就是收集和存儲海量數據(公開/隱私)。現在每個人都是一個巨大的數據源,通過智能手機和個人筆記本釋放出大量的個人行為信息。獲取數據似乎已經變得越來越容易,數據收集這一模塊最大的挑戰在於獲取海量數據的高速要求以及數據的全面性考慮。
傳統商業智能在數據清洗處理的做法(ETL)是,把准確的數據放入定義好的格式中,通過基礎的抽取統計生成高維度的數據,方便直接使用。然而大數據有個最突出的特徵——數據非結構化或者半結構化。因為數據有可能是圖片,二進制等等。數據清洗的最大挑戰來了——如何轉化處理大量非結構數據,便於分布式地計算分析。