❶ 大數據的定義是什麼
大數據首先是一個非常大的數據集,可以達到TB(萬億位元組)甚至ZB(十萬億億位元組)。這裡面的數據可能既有結構化的數據,也有半結構化和非結構化的數據,而且來自於不同的數據源。
結構化的數據是什麼呢?對於接觸過關系型資料庫的小夥伴來說,應該一點都不陌生。對了,就是我們關系型資料庫中的一張表,每行都具有相同的屬性。如下面的一張表:
(子標簽的次序和個數不一定完全一致)
那什麼又是非結構化數據呢?這類數據沒有預定義完整的數據結構,在我們日常工作生活中可能更多接觸的就是這類數據,比如,圖片、圖像、音頻、視頻、辦公文檔等等。
知道了這三類結構的數據,我們再來看看大數據的數據源有哪些呢?歸納起來大致有五種數據源。
一是社交媒體平台。如有名氣的Facebook、Twitter、YouTube和Instagram等。媒體是比較受歡迎的大數據來源之一,因為它提供了關於消費者偏好和變化趨勢的寶貴依據。並且因為媒體是自我傳播的,可以跨越物理和人口障礙,因此它是企業深入了解目標受眾、得出模式和結論、增強決策能力的方式。
二是雲平台。公有的、私有的和第三方的雲平台。如今,越來越多的企業將數據轉移到雲上,超越了傳統的數據源。雲存儲支持結構化和非結構化數據,並為業務提供實時信息和隨需應變的依據。雲計算的主要特性是靈活性和可伸縮性。由於大數據可以通過網路和伺服器在公共或私有雲上存儲和獲取,因此雲是一種高效、經濟的數據源。
三是Web資源。公共網路構成了廣泛且易於訪問的大數據,個人和公司都可以從網上或「互聯網」上獲得數據。此外,國內的大型購物網站,淘寶、京東、阿里巴巴,更是雲集了海量的用戶數據。
四是IoT(Internet of Things)物聯網數據源。物聯網目前正處於迅猛發展勢頭。有了物聯網,我們不僅可以從電腦和智能手機獲取數據,還可以從醫療設備、車輛流程、視頻游戲、儀表、相機、家用電器等方面獲取數據。這些都構成了大數據寶貴的數據來源。
五是來自於資料庫的數據源。現今的企業都喜歡融合使用傳統和現代資料庫來獲取相關的大數據。這些數據都是企業驅動業務利潤的寶貴資源。常見的資料庫有MS Access、DB2、Oracle、MySQL以及大數據的資料庫Hbase、MongoDB等。
我們再來總結一下,什麼樣的數據就屬於大數據呢?通常來大數據有4個特點,這就是業內人士常說的4V,volume容量、 variety多樣性、velocity速度和veracity准確性。
❷ 什麼是空間數據,它包括那幾種類型
空間數據又稱幾何數據,它用來表示物體的位置、形態、大小分布等各方面的信息,是對現世界中存在的具有定位意義的事物和現象的定量描述。根據在計算機系統中對地圖是對現實教想的存儲組織、處理方法的不同,以及空間數據本身的幾何特徵,空間數據又可分為圖形數據和圖像數據。
空間數據包括以下五種類型:
1、地圖數據:這類數據主要來源於各種類型的普通地圖和專題地圖,這些地圖的內容非常豐富。
2、影像數據:這類數據主要來源於衛星、航空遙感,包括多平台、多層面、多種感測器、多時相、多光譜、多角度和多種解析度的遙感影像數據,構成多元海量數據。
3、地形數據:這類數據來源於地形等高線圖的數字化,已建立的數據高程模型(DEM)和其他實測的地形數據。
4、屬性數據:這類數據主要來源於各類調查統計報告、實測數據、文獻資料等。
5、混合數據:這類數據來源於衛星、航空遙感與各種類型的普通地圖和專題地圖形成多方面數據。
空間數據結構是空間數據適合於計算機存儲、管理、處理的邏輯結構,是空間數據在計算機內的組織和編碼形式,是地理實體的空間排列和相互關系的抽象描述。它是對空間數據的一種理解和解釋。
空間數據結構又是指空間數據的編排方式和組織關系。空間數據編碼是指空間數據結構的具體實現,是將圖形數據、影像數據、統計數據等資料按一定的數據結構轉換為適合計算機存儲和處理的形式。不同數據源採用不同的數據結構處理,內容相差極大,計算機處理數據的效率很大程度取決於數據結構。
(2)高維數據由什麼構成擴展閱讀:
空間資料庫管理系統是空間資料庫的核心軟體,將對空間數據和屬性數據進行統一管理,為GIS應用開發提供空間資料庫管理系統除了必須具備普通資料庫管理系統的功能外,還具有以下三方面研究內容:
1、空間數據存儲管理,實現空間數據強大的基礎平台。和屬性數據的統一存儲和管理,提高數據的存儲性能和共享程度,設計實現空間數據的索引機制,為查詢處理提供快速可靠的支撐環境。
2、支持空間查詢的SQL語言,參照SQL-92和OpenGIS標准,對核心SQL進行擴充,使之支持標準的空間運算,具有最短路徑、連通性等空間查詢功能。
3、查詢,供相關人士查詢數據。
參考資料來源:網路-空間數據
❸ GIS包括哪些組成部分
GIS系統由什麼組成從計算機的角度看,地理信息系統(GIS系統)是由計算機硬體、軟體、數據和用戶4大要素組成。
1.計算機硬體系統;
2.計算機軟體系統;
3.地理空間資料庫;
4系統管理操作人員;
其中, 軟硬體系統是GIS系統的核心,地理空間資料庫反映了GIS的地理內容,而系統管理操作人員則決定GIS系統的工作方式和信息表示方式。
①硬體包括各類計算機處理機及其輸入輸出和網路設備,計算機硬體是GIS的物理外殼。GIS的規模、精度、速度、功能、形式、使用方法,甚至軟體等都受到硬體指標的支持或制約。GIS的硬體配置一般包括計算機主機、 數據輸入設備、數據存儲設備和數據輸出設備4個部分。
1.計算機主機:包括機箱內部的各種硬體;
2.數據輸入設備:包括數字化儀、圖像掃描儀、手寫筆、光筆等;
3.數據存儲設備:包括光碟刻錄機、磁帶機、磁碟陣列、光碟塔、移動硬碟等;
4.數據輸出設備:包括筆式繪圖儀、噴墨繪圖儀(列印機)、激光列印機等。
②軟體是支持信息的採集、處理、存儲管理和可視化輸出的計算機程序系統;
計算機軟體系統:
1.計算機系統軟體:計算機系統軟體是GIS日常工作所必需的,是由計算機廠家提供的、為用戶開發和使用計算機提供方便的程序系統,通常包括操作系統、匯編程序、編譯程序、診斷程序、庫程序,以及各種維護使用手冊、程序說明等。
2.GIS軟體和其他支撐軟體:該部分既包括通用的GIS軟體包,也可以包括資料庫管理系統、計算機圖形軟體包、計算機圖像處理系統、CAD軟體等,用於支持對空間數據的輸入、存儲、轉換、輸出和與用戶介面。
3.應用分析程序:應用分析程序是系統開發人員或用戶根據地理專題或區域分析模型編制的用於某種特定應用任務的程序,是系統功能的擴充與延伸。應用程序作用於地理專題數據或區域數據,構成GIS的具體內容,這是用戶最為關心的真正用於地理分析的部分,也是從空間數據中提取地理信息的關鍵。用戶進行系統開發的大部分工作是開發應用程序,而應用程序的水平在很大程度上決定系統的優劣與成敗。
③數據則包括圖形和非圖形數據、定性和定量數據、影像數據及多媒體數據等;
地理空間資料庫:地理空間資料庫主要用於儲存、管理和檢索地理空間數據。地理空間數據是指以地球表面空間位置為參照的自然、社會和人文景觀數據,可以用圖形、圖像、文字、表格和數字等表示,由系統建立者通過數字化儀、掃描儀、鍵盤或其他通信系統輸入GIS,是系統程序作用的對象。不同用途的GIS,其地理空間數據的種類和精度都是不同的,但基本上都包括以下3種互相聯系的數據類型。
1.某個已知坐標系中的位置:即幾何坐標,用於標識地理景觀在自然界或某個區域的地圖中的空間位置,可以是經緯度、平面直角坐標、極坐標等,也可以是矩陣的行、列數等。
2.實體間的空間相關性:即拓撲關系,表示點、線、面實體之間的空間聯系,如網路節點與網路線之間的樞紐關系、邊界線與面實體之間的構成關系、面實體與點的包含關系等。空間拓撲關系對於地理空間數據的編碼、錄入、格式轉換、存儲管理、查詢檢索和模型分析等都有重要意義。
3.與幾何位置無關的屬性:即通常所說的屬性或非幾何屬性,是與地理實體相聯系的地理變數或地理意義,可分為定性屬性和定量屬性兩種。其中,定性描述的屬性包括名稱、類型、特性等,如岩石類型、行政區劃等:定量描述的屬性主要是數量和等級,如面積、長度、河流長度、水土流失土量等。
④用戶是地理信息系統所服務的對象,是地理信息系統的主人,GIS的用戶分一般用戶和從事系統的建立、維護、管理和更新的高級用戶。
系統管理操作人員:人員是GIS的重要組成要素。GIS從設計、 建立、運行到維護的整個生命周期,都離不開人的作用。除了系統軟硬體和數據之外,GIS系統還需要相關人員進行系統組織、管理、維護和數據更新、系統擴充完善、應用程序開發,並靈活應用地理分析模型提取多種信息,為研究和決策服務。
❹ 什麼是高維數據
高維數據挖掘,是基於高維度的一種數據挖掘,和傳統的數據挖掘最主要的區別在於它的高維度。高維數據挖掘已成為數據挖掘的重點和難點。
隨著技術的進步使得數據收集變得越來越容易,導致資料庫規模越來越大、復雜性越來越高,如各種類型的貿易交易數據、Web 文檔、基因表達數據、文檔詞頻數據、用戶評分數據、WEB使用數據及多媒體數據等,它們的維度(屬性)通常可以達到成百上千維,甚至更高。
(4)高維數據由什麼構成擴展閱讀:
數據挖掘的廣義觀點:數據挖掘就是從存放在資料庫,數據倉庫或其他信息庫中的大量的數據中「挖掘」有趣知識的過程。它是計算機技術研究中的一個很有應用價值的新領域,融合了資料庫、人工智慧、機器學習、統計學等多個領域的理論和技術,已成為國際上資料庫和信息決策領域中最前沿的研究方向之一,引起了學術界和工業界的廣泛關注。
隨著數據維數的升高,高維索引結構的性能迅速下降,在低維空間中,我們經常採用歐式距離作為數據之間的相似性度量,但在高維空間中很多情況下這種相似性的概念不復存在,這就給高維數據挖掘帶來了很嚴峻的考驗,一方面引起基於索引結構的數據挖掘演算法的性能下降,另一方面很多基於全空間距離函數的挖掘方法也會失效。
解決的方法可以有以下幾種:可以通過降維將數據從高維降到低維,然後用低維數據的處理辦法進行處理;對演算法效率下降問題可以通過設計更為有效的索引結構、採用增量演算法及並行演算法等來提高演算法的性能;對失效的問題通過重新定義使其獲得新生。