A. 元資料庫
元數據是「關於數據的數據」,存在於電子信息環境中,用於描述資源的屬性,呈現其關系,支持資源發現、管理與有效利用(徐筱紅,2006),是對所採集到的數據的說明。一般來說,它有兩方面的用途:首先,元數據能提供基於用戶的信息,如記錄數據項的業務描述信息的元數據能幫助用戶使用數據;其次,元數據能支持系統對數據的管理和維護,如關於數據項存儲方法的元數據能支持系統以最有效的方式訪問數據。具體來說,在塔里木河流域生態環境動態監測及輔助決策支持系統綜合資料庫系統中,元數據機制主要支持以下幾類系統管理功能:①描述哪些數據在綜合資料庫中;②定義要進入資料庫中的數據和從資料庫中產生的數據;③記錄並檢測系統數據一致性的要求和執行情況;④衡量數據質量。
(一)元數據分級與特徵
1.元數據分級
基本元數據:提供地理數據源基本文檔所需要的最少的元數據元素集。
完全元數據:提供完整的地理數據源(單獨的數據集、數據集系列、各種地理要素)文檔所需要的必選的和可選的元數據元素集。它完整地定義全部元數據,以便標識、評價、摘錄、使用和管理地理信息。
2.元數據特徵
(1)名稱:賦給元數據實體或元素的標記。
(2)標識碼:計算機中使用的定義每個元數據實體和元素的唯一代碼。代碼結構為:XXXXXX
前2位為元數據子集,2位數字碼;中間2位為元數據實體/獨立元素,2位數字碼;後2位為元數據實體包含的元素,2位數字碼。
(3)定義:對元數據實體和元素的說明。
(4)性質:說明元數據實體或元素是否總是出現,或有時出現的描述符。描述符分別為:M-必選;C-一定條件下必選;O-可選。
(5)條件:說明何種條件下元數據子集、實體或元素是必選的。如果對所說明的條件成立,那麼該子集、實體或元素就是必選的。
(6)最大出現次數:指定元數據實體或元素在實際使用時,可能重復出現的最大次數。只出現一次的表示為「1」,重復出現的表示為「N」。
(7)數據類型:表示元數據元素的一組不同的值,例如,「文本」、「整型」、「短語」、「坐標串」、「實型」和「日期」。
(8)值域:指定每個元數據元素的取值范圍。「任意長文本」表示所述內容不受限制,實型數和基於代碼的整型數等只能使用一個限定的(閉合的)值域內的值。
(二)元資料庫主要內容
塔里木河流域生態環境動態監測系統的元數據包括數字影像圖、數字柵格圖、數字高程模型、數字線劃圖等。大部分數據都有相應的國家或行業元數據標准規范,有國家或行業標準的按照標准規范採集;沒有規范的,按照元數據的分級特徵進行定義。主要包括有關數據源、數據分層、成果歸屬、空間參照系、數據質量(包含數據精度和數據評價)、數據更新、圖幅接邊等方面的信息(周騁等,2006)。其主要內容描述如下:
(1)標識信息:是唯一標識數據集的元數據信息。包括數據集名稱、發布時間、版本、語種、摘要、現狀、空間范圍(地理范圍、時間范圍)、表示方式、空間解析度、信息類別。
(2)數據質量信息:是數據集質量的總體評價。包括數據集內容完整性說明、數據集在概念、值域、格式和拓撲關系等方面的一致性程度、位置精度(空間位置絕對精度和相對精度)、時間精度(表示時間的精確程度、現勢性、有效性)、屬性精度(數據集屬性分類正確性、屬性值的精度和正確性)、數據質量保證措施。
(3)數據字典信息:包含數據集應用、數據源及生產數據集時所用工藝方法等信息。
(4)空間參照系信息:數據集使用的空間參照系統的說明。包括基於地理標識的空間參照系統、基於坐標的空間參照系統。
(5)內容信息:描述數據集的主要內容。包括主要要素類型名稱及相應的屬性名稱、影像數據集內容概述(波長、波段、灰階等級、合成處理方式)、柵格數據集內容概述(格網尺寸、格網尺寸單位、格網行列數、格網起始點坐標)。
(6)元數據參考信息:包括元數據發布或更新的時間,以及建立元數據單位的聯系信息。
以上6類由兩個公共數據類型聯系,公共數據類型包括:
(1)覆蓋范圍信息:數據集的空間范圍(經緯度坐標、地理標識符)、時間范圍(起始時間、終止時間)、垂向范圍(最小垂向坐標值、最大垂向坐標值、計量單位)。
(2)負責單位聯系信息:與數據集有關的單位標識(負責單位名稱、聯系人、職責)和聯系信息(電話、傳真、通信地址、郵政編碼、電子信箱地址、網址)。
(三)元數據入庫
元數據信息是一個純文本文件,在生產時採集了多項數據,它是與圖形數據、屬性數據緊密聯系在一起的,按照每幅圖一個文本文件存儲。為了實現資料庫系統中元數據與數據體的集成化管理,以及元數據與數據體的一體化相互檢索查詢,需將元數據信息空間化。採取的技術方法就是將元數據文件與圖幅結合表聯系起來,將每一幅圖形的區域作為一個目標對象,所採集的多項元數據信息作為其屬性項,構成一個以圖幅結合表為基礎的矢量格式元數據集。同圖形數據坐標系統一樣,元數據採用地理坐標系統,整個流域則以Coverage格式整體存儲,數據處理完成後全部導入到Oracle9i資料庫中。
B. 元數據技術在實物地質資料資源信息化中的應用
王靜茹
(國土資源部實物地質資料中心,三河065201)
摘要 本文從元數據概念出發,結合實物地質資料信息化現狀,對實物地質資料採取元數據技術實現數字化進程中的若干問題進行了探索。重點論述了元數據技術在實物地質資料信息化的重要性和可行性,闡明了在實物地質資料領域應用元數據技術可以避免其他行業在數字化進程中遇到的問題,從而更有效的實現數據共享,對促進實物地質資料成果的交流和推廣,有著十分重要的意義。
關鍵詞 元數據;實物地質資料;信息化;應用
1 概述
信息化、數字化使信息資源提供者和使用者之間突破時間、空間、地域的限制,使信息資源實現更廣時空范圍內的共享。隨著科技水平的不斷進步,交流范圍的不斷拓展,對數字化的信息資源採取標准化、專業化處理,已成為信息資源提供者和使用者的共同要求。目前,很多領域在數字化時選擇了元數據處理技術,它通過採用普遍適用的數據標准,使信息資源具有很強「可讀性」、科學性和先進性,實現了信息資源的數字化和更大范圍共享,滿足了不同使用者的差異性要求,取得了很好的社會效益和經濟效益。
2 元數據概念與技術特點
2.1 元數據的基本概念
元數據最本質的定義是關於數據的數據(data about data)。元數據可以為各種形態的信息資源(或稱本體)提供規范、普遍的描述方法和檢索工具,為分散的、由多種資源組成的信息體系提供整合的工具與紐帶。
元數據的功能或作用主要為描述、資源發現、數據管理、訪問控制、數字化保存、內容分級等諸多方面。按照元數據的主要功能,元數據一般可分為描述性元數據、管理型元數據、結構性元數據、保存性元數據等。描述性元數據是用來描述、發現和鑒別數字化信息對象,它主要描述信息資源的主題和內容特徵。管理型元數據是以管理資源對象為目的的屬性元素,包括資源對象的顯示、註解、使用、長期管理等方面的內容。結構性元數據用於定義一個復雜的資源對象的物理結構,以利於信息檢索和顯示。元數據最基本的功能是通過數據元素集定義資源對象的各類屬性,這些屬性的大量實例可以表達為關系型資料庫中的表,從而能夠利用資料庫系統或各類應用軟體進行管理。保存性元數據是以保存資源對象為信息系統的開發目的,特別注重資源對象長期保存有關的屬性。
元數據的提供者可以根據本體的不同,有側重地實現某些功能。如對實物地質資料而言,由於其歷史價值一般較高,要求長期保存並能基本維持其原貌,但在自然條件下,要達到這一要求具有相當的難度,必須支付相當昂貴的日常維護成本。在數字化背景下,則完全可以實現永久「虛擬」保存功能,從這一角度說,實物地質資料元數據可以認為是保存性元數據,另外,實現資源發現等其他功能也比較重要。
2.2 元數據技術特點
簡單地說,元數據技術是指基於元數據標准而實現資源數字化的一整套標准、流程的總稱。元數據標準是經過標准化組織認可的元數據方案。
(1)元數據標准將成為未來數字化的普遍標准。數字化是隨著互聯網的產生而產生的。同時,隨著互聯網語言標準的變化,數字化語言標准將作適應性調整和變化。目前網路環境下的數字化成果大多數基於第二代互聯網語言標准。研究表明,隨著互聯網的飛速發展,下一代萬維網——語義萬維網(Semantic Web)將賦予萬維網上所有資源唯一的標識,並在資源之間建立機器可處理的各類語義聯系,元數據將是語義萬維網的語義基礎。隨著新一代萬維網的普及和推廣,目前的大多數非元數據數字化成果將面臨被淘汰,或是付出高成本將其轉換為元數據標准。
(2)元數據技術以資源數字化為前提,以元數據集為內核。資源數字化是採取元數據技術的前提和基礎,從理論上來說任何資源都可別標識,都可以進行數字化處理,也都可以採取元數據技術,但限於技術條件和效益—成本約束,有些資源無法(或不值得)數字化,因此也不宜使用元數據技術。
(3)元數據強烈依賴網路平台。形象地說,元數據是在網路環境下,計算機之間進行交流的語言,元數據既看不見,又摸不著,不是一種可視語言,它只有依託網路平台,其所描述的本體才能表達和展現出來,元數據對網路環境具有強烈的依賴性,離開網路,就無從談論元數據。
3 元數據技術在實物地質資料信息資源應用中的重要性和可行性
實物地質資料一般無法復制,即使隨著科學技術水平的提高和分析手段的改進,能夠在特定條件下實現部分重置,但成本也是很高的。再加上同樣高昂的採集成本,一份實物地質資料,其直觀的經濟價值就相當可觀。
實物地質資料的最主要的功能是為長期、可持續地研究、分析我國基礎地質、礦產資源等方面提供基礎性研究樣本。因此,實物地質資料的社會性和公益性價值是無法用金錢來衡量的,是一種形成於歷史、發掘於現代、惠及後世的極其寶貴的社會資源。但是,由於實物地質資料大部分以實體形態存在(如岩心、礦心、岩石樣本等),移動困難,資料使用者只好採取實地觀察的形式,給使用者造成很大的不便。而且,這些實物資料在移動過程中易於損毀,造成無法彌補的損失。因此,利用先進的技術方法,改進和提高分析手段,對加強實物地質資料保管、分析研究和提高其使用效率,具有十分重要的意義。元數據技術就可以很好地解決這一問題,它可以在不見實物的情況下,利用網路平台,實現對實物地質資料物理、化學等屬性特徵的分析研究工作。在這一過程中,元數據扮演了實物「替代品」的角色,即使實體被損毀或丟失,通過元數據技術採集的信息仍可以達到「恢復」實體的效果。實體與虛擬體的分離,可以減輕對實體的維護壓力,降低損耗和維護成本,亦可延長實體的使用壽命。
按照元數據技術原理,資源是可以被標識的任何東西,既可以是實體的,也可以是抽象的。實物地質資料主要以實體形態存在,包括岩心、礦心、軟泥心、岩石、礦石、礦物、岩石光片、薄片、重砂等,另外,如分析材料、物理性實驗結論、化驗成果等則以抽象形態存在。從理論上來說,實物地質資料也是一種資源,無論其是實體形態,還是抽象形態,均可以採取元數據技術進行處理,因此,採取元數據技術在理論上是可行的。
國家已經發布了地理信息元數據(ISO 19115—2003(E)Geographic information-Metadata.GB/T 19710—2005)和國土資源信息核心元數據標准(TD/T 1016—2003),對指導和推進元數據技術在地質領域的應用起到了重要的作用。2007年12月7日,中國地質調查局發布了《地質信息元數據標准》,這一系列與元數據有關的重要標準的發布,標志著在地質領域應用元數據技術已經有了成熟的制度基礎。
元數據技術是以信息數字化為實踐基礎,以網路為背景,以元數據集為內核,因此首先要求資源的數字化,其次對信息平台有強烈的依賴性。隨著《實物地質資料管理辦法》的頒布實施,實物地質資料的管理逐步規范化、制度化,實物地質資料中心已經根據國土資源部「關於建立健全地質資料網路服務體系」的通知要求,建立了自己的信息平台。岩心掃描技術和圖像分析技術也越來越成熟,也使實物地質資料數字化成為現實。在實物地質資料領域採取元數據技術,在硬體方面已經沒有無法逾越的障礙。
因此,在實物地質資料領域應用元數據技術,在理論上、制度上、硬體等方面已經具備成熟條件,完全可以根據元數據標准實現實物地質資料資源信息化,建立實物地質資料元數據集。
4 結論與建議
目前許多發達國家已經進入數字化時代,我國也加大了對數字化的投入和建設,相對於其他領先行業和領域,如石油行業,實物地質資料領域處於較落後的位置,數字化建設基本剛剛起步,但正是這種明顯的劣勢,通過各方面的努力,卻可以轉化為優勢,即在起步階段就採取高技術標准,就完全可以避免重走其他行業在探索階段所必須經歷的彎路,大幅度降低成本。採用元數據這一「通用」語言,就可以實現數據在國際國內間的互換,對促進實物地質資料成果的交流和推廣,有著十分重要的意義。
目前,實物地質資料管理工作依舊以傳統的實體整理為主,數字化成果較少且尚處於起步階段,而且國家及有關部門對實物地質資料數字化還沒有強制提出採用元數據標准。但是,元數據技術作為下一代網路信息資源整理技術的發展方向和新標准,現在數字化技術條件下的實物地質資料數字化成果將難以適應新技術發展的要求,也勢必會阻礙實物地質資料的深入開發和廣泛共享。因此,根據網路新技術發展要求,盡快盡早地採用元數據技術實現實物地質資料的數字化,為全社會提供更廣泛的公益性服務,是實物地質資料整理、應用的重要課題之一。
C. 地理信息系統知識點
地理信息系統是一門綜合性學科,結合地理學與地圖學以及遙感和計算機科學,已經廣泛的應用在不同的領域,是用於輸入、存儲、查詢、分析和顯示地理數據的計算機系統,接下來我為你整理了地理信息系統知識點,一起來看看吧。
1、什麼是GIS?它具有什麼特點?
答:地理信息系統(GIS , Geographic Information System)是在計算機硬、軟體系統支持下,對現實世界(資源與環境)的研究和變遷的各類空間數據及描述這些空間數據特性的屬性進行採集、儲存、管理、運算、分析、顯示和描述的技術系統
特點有:
○1具有採集、管理、分析和輸出多種地理空間信息的能力;
○2以地理研究和地理決策為目的,以地理模型方法為手段,具有空間分析、多要素綜合分析和動態預測的能力;並能產生高層次的地理信息。
○3具有公共的地理定位基礎,所有的地理要素,要按經緯度或者特有的坐標系統進行嚴格的空間定位。
○4由計算機系統支持進行空間地理數據管理,並由計算機程序模擬常規的或專門的地理分析方法,作用於空間數據,產生有用信息,完成人類難以完成的任務。
○5地理信息系統從外部來看,它表現為計算機軟硬體系統;而其內涵確是由計算機程序和地理數據組織而成的地理空間信息模型,是一個邏輯縮小的、高度信息化的地理系統。信息的流動及信息流動的結果,完全由計算機程序的運行和數據的交換來模擬
2、GIS與其它信息系統有什麼區別
答:第一,GIS有別於DBMS(資料庫管理系統),GIS具有以某種選定的方式對空間數據進行解釋和判斷的能力,而不是簡單的數據管理,這種能力使用戶能得到關於數據的知識,因此,GIS是能對空間數據進行分析的DBMS,GIS必須包含DBMS。
第二,GIS有別於MIS(管理信息系統),GIS要對圖形數據和屬性資料庫共同管理、分析和應用,GIS的軟硬體設備要復雜、系統功能要強;MIS則只有屬性資料庫的管理,即使存貯了圖形,也是以文件形式管理,圖形要素不能分解、查詢、沒有拓撲關系。管理地圖和地理信息的MIS不一定就是GIS,MIS在概念上更接近DBMS。
第三,GIS有別於地圖資料庫,地圖資料庫僅僅是將數字地圖有組織地存放起來,不注重分析和查詢,不可能去綜合圖形數據和屬性數據進行深層次的空間分析,提供輔助決策的信息,它只是GIS的一個數據源。
第四,GIS有別於CAD系統,二者雖然都有參考系統,都能描述圖形,但CAD系統只處理規則的幾何圖形,屬性庫功能弱,更缺乏分析和判斷能力。
3、簡述GIS的構成
答:GIS構成:硬體平台、軟體平台、空間數據、應用人員、GIS模型。
4、簡述GIS的發展。
答:地理信息系統的發展的四個階段 :
第一階段:60年代起源於北美:加拿大國家土地調查局為了處理大量的土地調查資料,於60年 代開始建立地理信息系統(CGIS),於70年代初投入產品生產;同一時期的美國哈佛大學的計算機圖形與空間分析實驗室,建立通用的制圖軟體包,竭力發展空間分析模型和軟體
第二階段:70年代是GIS發展的鞏固階段:美國、加拿大、英國、西德、瑞典和日本等國對地理信息系統的研究均投入了大量的人力、物力、財力,研究不同專題、不同規模、不同類型的各具特色的地理信息系統。
第三階段:80年代為地理信息系統的大發展階段:計算機的迅速發展和普及,地理信息系統也逐 步走向成熟,並在全世界范圍內全面地推向應用階段。
第四階段:90年代至今為地理信息系統的應用普及時代 :由於計算機的軟硬體均得到飛速的發展,網路已進入千家萬戶,地理信息系統已成為許多機構必備的工作系統,尤其是政府決策部門在一定程度上由於受地理信息系統影響而改變了現有機構的運行方式、設置與工作計劃等。從美國的 “國家信息基礎設施:行動計劃(National Information Infrastructure ,簡稱NII)” 建設到數字地球的提出,由“數字地球”細化到“數字中國”、“數字省區”、“數字城市” 、“數字小區”直到“企業信息化”、“電子商務”、“數字通訊”、“虛擬現實”等眾多的信息化領域的工作已全面鋪開。
5、舉例說明GIS可應用的行業
測繪與地圖制圖 資源調查與管理 城鄉規劃 災害監測 環境保護 國防 宏觀決策支持
如:防火信息系統、水質管理、城市土地利用信息系統、電信資源管理、鐵路地理信息系統、公安警用地理信息系統、醫療機構信息查詢等
1、說說地理空間模型是怎樣建立的?
(1)地球橢球體模型:以大地水準面為基準建立的。地球的形狀接近於橢圓繞其短軸形成的橢球體,通過扁率表示橢球體的扁平程度。大地水準面與具有微小扁率的旋轉橢球面非常接近,可用旋轉橢球體代替大地球體。
(2)地球表面:最自然的面,包括海洋底部、高山、高原等在內的固體地球表面。——太復雜,難以建模,各種量算也非常困難。
(3)大地水準面:相對抽象的面,是靜止海平面的延伸。以它為基準,可以用水準儀測量地球自然表面上任意點的高程。——海平面的起伏將導致測量的不確定。大地水準面所包圍的球體,叫大地球體
2、GIS中為什麼要考慮地圖投影?
答:GIS以地圖方式顯示地理信息。地圖是平面,而地理信息則是在地球橢球上,因此地圖投影在GIS中不可缺少。
GIS資料庫中地理數據以地理坐標存儲時,則以地圖為數據源的空間數據必須通過投影變換轉換成地理坐標;而輸出或顯示時,則要將地理坐標表示的空間數據通過投影變換變換成指定投影的平面坐標。
GIS中,地理數據的顯示可根據用戶的需要而指定投影方式,但當所顯示的地圖與國家基本地圖系列的比例尺一致時,一般採用國家基本系列地圖所用的投影。
3、地理空間實體的三要素是什麼?它們之間的關系是怎樣的?
答:地理空間試題三要素是點、線、面三種要素,分別用點狀、線狀、面狀符號表示。其中,點要素是有位置,無寬度和長度的抽象的點;線要素是有長度,但無寬度和高度 用來描述線狀實體的,通常在網路分析中使用較多,度量實體距離。面要素則具有長和寬的目標,通常用來表示自然或人工的封閉多邊形,一般分為連續面和不連續面。
4、 空間數據的基本特徵有哪些?地理信息的數字化描述方法有哪些?
5、 答:有
屬性特徵:描述空間對象的特性,即是什麼,如對象的類別、等級、名稱、數量等。
空間特徵:描述空間對象的地理位置以及相互關系,又稱幾何特徵和拓撲特徵,前者用經緯度、坐標表示,後者如交通學院與電力學院相鄰等。
時間特徵:描述空間對象隨時間的變化
方法有:顯性描述和隱性描述。計算機對空間實體的顯性描述也稱柵格數據結構,對地理實體的隱性描述也成矢量數據結構。所以有柵格法和矢量法可以表示空間信息。
6、 什麼是元數據?為什麼要使用元數據?
答:元數據是關於數據的描述性數據信息,說明數據內容、質量、狀況和其他有關特徵的背景信息。其目的是促進數據集的高效利用,並為計算機輔助軟體工程服務。
元數據的作用和意義:
(1)幫助數據生產單位有效的維護和管理數據;
(2)提供有關數據生產單位的各種有關信息供用戶查詢;
(3) 幫助用戶了解數據;
(4) 提供有關信息,以便用戶處理和轉換有用數據。
(5) 採用元數據可以便於數據共享。
1、資料庫的定義:是為一定目的服務,以特定的數據存儲的相關聯的數據集合
2、資料庫的特徵:
(1)在資料庫中的數據獨立於應用,從而實現了數據共享,減少了信息冗餘,提高了數據的利用效率。
(2)在數據值中建立了聯系,體現邏輯性和科學性。
(3)復雜的數據模型,為數據的安全與保護提供了基礎。
(4)數據保護性特徵
3、資料庫管理系統
定義:在信息系統中,應用程序對資料庫中的數據的訪問,是通過一個能對資料庫進行定義、建立、維護、管理、查詢、通訊等基本操作的核心軟體而進行的。功能:資料庫的定義、資料庫的維護、資料庫之間的通訊。
4、地理信息系統資料庫(GIS資料庫)及其特點
定義: GIS資料庫是關於特定區域內一定地理要素特徵的數據集合。
特點:(1)不僅存貯有關對象的屬性數據,同時還存儲有關對象的空 間定位數據,且二者具有不可分割的緊密聯系。(2)數據量特別大。(3)數據的應用廣泛。
5、數據模型:資料庫系統中關於數據和聯系的邏輯組織的形式表示。資料庫領域採用的數據模型有層次模型、網狀模型和關系模型,其中應用最廣泛的是關系模型。
6、傳統資料庫在管理空間數據時的局限:
(1)管理的是不連續的、相關性較小的數字和字元。
(2)管理的實體類型較少,並且實體類型之間通常只有簡單、固定的空間關系。
(3)存儲的數據通常為等長記錄的數據;
D. 什麼是元數據,在gis資料庫中它的作用是什麼
元數據:描述數據的數據,對數據及信息資源的描述性信息,為數據倉庫的發展和使用
從GIS資料庫從面來看:元數據可看做 一行行 記錄
E. 元數據的作用和意義是什麼
元數據(Meta Date),主要記錄數據倉庫中模型的定義、各層級間的映射關系、監控數據倉庫的數據狀態及ETL的任務運行狀態。一般會通過元數據資料庫(Metadata Repository)來統一地存儲和管理元數據,其主要目的是使數據倉庫的設計、部署、操作和管理能達成協同和一致。
元數據是數據倉庫管理系統的重要組成部分,元數據管理是企業級數據倉庫中的關鍵組件,貫穿數據倉庫構建的整個過程,直接影響著數據倉庫的構建、使用和維護。
構建數據倉庫的主要步驟之一是ETL。這時元數據將發揮重要的作用,它定義了源數據系統到數據倉庫的映射、數據轉換的規則、數據倉庫的邏輯結構、數據更新的規則、數據導入歷史記錄以及裝載周期等相關內容。數據抽取和轉換的專家以及數據倉庫管理員正是通過元數據高效地構建數據倉庫。
用戶在使用數據倉庫時,通過元數據訪問數據,明確數據項的含義以及定製報表。
數據倉庫的規模及其復雜性離不開正確的元數據管理,包括增加或移除外部數據源,改變數據清洗方法,控制出錯的查詢以及安排備份等。
元數據可分為技術元數據和業務元數據。技術元數據為開發和管理數據倉庫的IT 人員使用,它描述了與數據倉庫開發、管理和維護相關的數據,包括數據源信息、數據轉換描述、數據倉庫模型、數據清洗與更新規則、數據映射和訪問許可權等。而業務元數據為管理層和業務分析人員服務,從業務角度描述數據,包括商務術語、數據倉庫中有什麼數據、數據的位置和數據的可用性等,幫助業務人員更好地理解數據倉庫中哪些數據是可用的以及如何使用。
由上可見,元數據不僅定義了數據倉庫中數據的模式、來源、抽取和轉換規則等,而且是整個數據倉庫系統運行的基礎,元數據把數據倉庫系統中各個鬆散的組件聯系起來,組成了一個有機的整體
F. 什麼是元數據
元數據的英文名稱是「Metadata",它是「關於數據的數據」在地理空間信息中用於描述地理數據集的內容、質量、表示方式、空間參考、管理方式以及數據集的其他特徵,它是實現地理空間信息共享的核心標准之一。目前,國際上對空間元數據標准內容進行研究的組織主要有三個,分別是歐洲標准化委員會(CEN/TC287)、美國聯邦地理數據委員會(FGDC)和國際標准化組織地理信息/地球信息技術委員會(ISO/TC211)。空間元數據標准內容分兩個層次。第一層是目錄信息,主要用於對數據集信息進行宏觀描述,它適合在數字地球的國家級空間信息交換中心或區域以及全球范圍內管理和查詢空間信息時使用。第二層是詳細信息,用來詳細或全面描述地理空間信息的空間元數據標准內容,是數據集生產者在提供空間數據集時必須要提供的信息。
元數據主要有下列幾個方面的作用:
(1)用來組織和管理空間信息,並挖掘空間信息資源,這正是數字地球的特點和優點所在。通過它可以在廣域網或網際網路上准確地識別、定位和訪問空間信息。
(2)幫助數據使用者查詢所需空間信息。比如,它可以按照不同的地理區間、指定的語言以及具體的時間段來查找空間信息資源。
(3)組織和維護一個機構對數據的投資。
(4)用來建立空間信息的數據目錄和數據交換中心。通過數據目錄和數據交換中心等提供的空間元數據內容,用戶可以共享空間信息、維護數據結果,以及對它們進行優化等。
(5)提供數據轉換方面的信息。使用戶在獲取空間信息的同時便可以得到空間元數據信息。通過空間元數據,人們可以接受並理解空間信息,與自己的空間信息集成在一起,進行不同方面的科學分析和決策。描述空間信息的元數據標准體系內容按照部分、復合元素和數據元素來組織,它們是依次包含關系,前者包含後者,即:後者依次組成前者。具體分為8個基本內容部分和4個引用部分,由12個部分組成,其中標准化內容包括標識信息、數據質量信息、數據集繼承信息、空間數據表示信息、空間參照系信息、實體和屬性信息、發行信息以及空間元數據參考信息等內容,另外還有4個部分是標准化部分中必須引用的信息,它們為引用信息、時間范圍信息、聯系信息及地址信息。元數據標准內容體系是通過元數據網路管理系統來實現的,該系統主要由許可權驗證功能(伺服器端驗證)、輸入和合法性校驗功能(客戶端校驗)、查詢功能(伺服器端查詢)與返回和顯示功能(伺服器端格式化查詢結果並返回,客戶端顯示)等組成。利用空間元數據網路管理系統作為空間交換站的共享軟體可基本上實現空間信息的網路共享。
G. 【第一節】元數據概念及其作用
按照傳統的定義,元數據(Metadata)是關於數據的數據,任何文件系統中的數據都分數據與元數據,數據是指普通文件中的實際數據,而元數據指用來描述一個文件的特徵的系統數據,諸如訪問許可權、文件擁有者以及文件數據塊的分布信息(inode...)等等。在集群文件系統中,分布信息包括文件在磁碟上的位置以及磁碟在集群中的位置。用戶需要操作一個文件必須首先得到它的元數據,才能定位到文件的位置並且得到文件的內容或相關屬性。
比如:我們要訪問linux上一個文件,我們是不是要知道這個文件的路徑,文件名?如下圖:
從上面圖可以看到,我們我們訪問一個路徑 /home/hadoop/test
那麼這個路徑就是這個目錄的一個元數據信息,當然目錄下面有三個文件,每個文件對應的許可權rw,屬於哪個用戶,組,每個文件大小,創建時間,文件名這些都是這個目錄的元數據,而我們真實的數據就是在da.log,deal.py里的數據如下圖:
如果我們想知道上面這些表裡要查詢數據,是不是需要寫sql:
select * from tb_ky
那麼這樣查出來的數據就是保存在此表的真實數據
這張表的元數據也顯然可見,那就是
表名,表所在的庫,表中的欄位名,欄位類型,長度,是否為空,用的什麼引摯,編碼等。
其實說為什麼要用元數據,就是元數據能給我們帶來哪些作用,這樣的問題網上答案太多了,不同的行業有不同的觀點,就我們從大數據數據倉庫來說吧,一般的公司做數倉時,都會多層架構的搭建,比如普遍的 ODS,DWD DWE DM等這樣三四層的結構,那麼上一層的數據要依賴與下層,這就可以看到我們的數據從最低層到最高層的有向流動。那麼我們元數據就可以做下面的事了:
H. 空間元數據的主要作用
:
幫助數據生產單位有效地管理和維護空間數據,建立數據文檔,並確保即使在其主要工作人員離退,也不會失去對數據狀況的了解。
提供有關數據生產單位的數據存儲、數據分類、內容、質量、數據交換網路及數據銷售等方面的信息,便於用戶查詢檢索地理空間數據。
幫助用戶了解數據,以便就數據是否能滿足要求作出正確判斷。
目前,國際上對空間元數據標准內容進行研究的組織主要有三個,分別是歐洲標准化委員會(CEN/TC287)、美國聯邦地理數據委員會(FGDC)和國際標准化組織地理信息/地球信息技術委員會(ISO/TC211)。
理方式以及數據集的其他特徵。地理空間信息中的元數據(簡稱空間元數據),通過提供地理空間信息的這些特徵資料,來達到實現地理空間信息的有效管理和合理共享的雙重目的。對於數據生產者,一方面通過提供空間元數據,及時發布有效的地理空間數據,最大限度地發揮已有地理空間信息的價值,另一方面根據空間元數據的內容有效地管理和維護已有地理空間數據。對於各級的數據交換中心,則根據數據生產者提供的空間元數據,實現地理空間信息的快速檢索和准確定位,最終達到數據共享的目的。空間元數據最主要的作用在於對數據用戶提供的極大方便。方便數據用戶查詢檢索有效的地理空間數據,了解已有的地理空間數據信息,選擇合適的地理空間數據,促使地理空間數據的再利用。
I. 什麼是元數據技術
元數據(Metadata)簡單地說,就是「關於數據的數據」,它是關於數據質量、狀況和其他特性的描述性信息。主要用於描述數據集,也用於描述數據集系列和各個要素及屬性。在地理信息領域,主要是指說明地理資料數據集的一些信息,主要包括:數據集編碼、數據集名稱、資料類別、要素或項目名稱、數據集內容關鍵詞、數據起止時間、數據空間范圍、比例尺/解析度、數據表達方式、數據質量狀況、數據存儲介質、數據存儲格式、數據量、數據來源、數據集所使用語種、數據集作者信息、元數據作者信息、數據集存放地點、數據集索取方式,以及數據尺度、數據更新周期和數據空間參考系及坐標等等。
在GIS和土地信息系統中,包含有多源、多時相、多尺度、多解析度和多種類型的數據。如何組織和管理好這些數據,快速、有效地訪問和獲得所需的數據,將是一個非常突出的問題。元數據技術即是用來幫助解決這些問題的。
元數據技術內容主要包括元數據的標准、獲取、管理及發布技術。