A. 什麼是政府數據資源基本目錄和共享目錄
可以看一下兩部門關於印發《政務信息資源目錄編制指南(試行)》的通知,裡面有說明。2017年制定的。
B. 什麼叫數據資源系統
數據資源系統分為學位論文子系統、會議論文子系統、科技信息子系統、數字化期刊子系統和商務信息子系統;詳細信息如下:
1 中國學位論文全文資料庫資源由國家法定學位論文收藏機構中國科技信息研究所提供,並委託萬方數據加工建庫,收錄了自1977年以來我國自然科學領域博士、博士後及碩士研究生論文,其中文摘已達38萬余篇,首次推出最近3年的論文全文8萬多篇,並年增全文3萬篇
2 會議論文全文資料庫收錄了1998-2001年 國家級學會、協會、研究會組織召開的全國性學術會議論文。每年涉及 600餘個重要的學術會議,每年增補論文15000餘篇。數據范圍覆蓋自然科學,工程技術,農林,醫學等27個領域,收錄論文13萬篇;
3 數字化期刊子收錄理、工、農、醫、人等5大類70多個類目2500多種科技類核心期刊,實現全文上網。
4 科技文獻資源匯集了全國各主要信息機構提供的科技文獻信息,所含信息量大、種類繁多、時間跨度大、專業覆蓋面廣,具有相當的權威性、收錄范圍涉及專業、綜合、英文等40餘個資料庫,超過960萬條記錄。
5 科技成果專利資源收錄范圍包括國內的科技成果與專利,以及國家級科技計劃項目,內容涉及化工、生物、醫葯、機械、電子等專業的高新技術及實用技術,總數據量超過60萬項,年更新總量達2-3萬項。
6 科技名人資源囊括了我國(含台灣地區)16000餘名著名的科學家(含兩院院士)、工程師及從事管理和政策制訂的科技負責人的全面信息,主要內容包括個人情況、科學研究或管理成就、專著、論文等
7 政策法規收錄信息共計8.8萬條,內容不但包括了國家、地方及行業的法律法規,同時還將科技發展動態和政策管理等信息收錄其中,具有很高的資源價值。
8 中外標准資源包括了國家技術監督局、建設部情報所提供的相關行業的中國國家標准、國際標准、以及各國國家標准,總計共12個資料庫,20多萬條數據。
9 中國企業、公司及產品資料庫始建於1988年,由萬方數據聯合國內近百家信息機構共同開發。十幾年來,歷經20版的更新和擴充,現已收錄96個行業的近16萬家企業的詳盡信息,收錄產品信息上百萬條,是國內外工商界了解中國市場的一條捷徑。中國企業、公司及產品資料庫每月定期更新,全年更新率達到100%。
10商務動態收錄了包括中經網、機經網、中國報刊報業協會等多家單位提供的商務信息,每日更新信息達到300多條,目前信息總量累計已經達到10餘萬條。
C. 企業數據治理的重點和難點
重點的話,從技術實施角度看,主要包含「理」「采」「存」「管」「用」這五個,即業務和數據資源梳理、數據採集清洗、資料庫設計和存儲、數據管理、數據使用。
數據資源梳理:數據治理的第一個步驟是從業務的視角釐清組織的數據資源環境和數據資源清單,包含組織機構、業務事項、信息系統,以及以資料庫、網頁、文件和 API 介面形式存在的數據項資源,本步驟的輸出物為分門別類的數據資源清單。
數據採集清洗:通過可視化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)將數據從來源端經過抽取 (extract)、轉換 (transform)、載入 (load) 至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
基礎庫主題庫建設:一般情況下,可以將數據分為基礎數據、業務主題數據和分析數據。基礎數據一般指的是核心實體數據,或稱主數據,例如智慧城市中的人口、法人、地理信息、信用、電子證照等數據。主題數據一般指的是某個業務主題數據,例如市場監督管理局的食品監管、質量監督檢查、企業綜合監管等數據。而分析數據指的是基於業務主題數據綜合分析而得的分析結果數據,例如市場監督管理局的企業綜合評價、產業區域分布、高危企業分布等。那麼基礎庫和主題庫的建設就是在對業務理解的基礎上,基於易存儲、易管理、易使用的原則抽像數據存儲結構,說白了,就是基於一定的原則設計資料庫表結構,然後再根據數據資源清單設計數據採集清洗流程,將整潔干凈的數據存儲到資料庫或數據倉庫中。
元數據管理:元數據管理是對基礎庫和主題庫中的數據項屬性的管理,同時,將數據項的業務含義與數據項進行了關聯,便於業務人員也能夠理解資料庫中的數據欄位含義,並且,元數據是後面提到的自動化數據共享、數據交換和商業智能(BI)的基礎。需要注意的是,元數據管理一般是對基礎庫和主題庫中(即核心數據資產)的數據項屬性的管理,而數據資源清單是對各類數據來源的數據項的管理。
血緣追蹤:數據被業務場景使用時,發現數據錯誤,數據治理團隊需要快速定位數據來源,修復數據錯誤。那麼數據治理團隊需要知道業務團隊的數據來自於哪個核心庫,核心庫的數據又來自於哪個數據源頭。我們的實踐是在元數據和數據資源清單之間建立關聯關系,且業務團隊使用的數據項由元數據組合配置而來,這樣,就建立了數據使用場景與數據源頭之間的血緣關系。 數據資源目錄:數據資源目錄一般應用於數據共享的場景,例如政府部門之間的數據共享,數據資源目錄是基於業務場景和行業規范而創建,同時依託於元數據和基礎庫主題而實現自動化的數據申請和使用。
質量管理:數據價值的成功發掘必須依託於高質量的數據,唯有準確、完整、一致的數據才有使用價值。因此,需要從多維度來分析數據的質量,例如:偏移量、非空檢查、值域檢查、規范性檢查、重復性檢查、關聯關系檢查、離群值檢查、波動檢查等等。需要注意的是,優秀的數據質量模型的設計必須依賴於對業務的深刻理解,在技術上也推薦使用大數據相關技術來保障檢測性能和降低對業務系統的性能影響,例如 Hadoop,MapRece,HBase 等。
商業智能(BI):數據治理的目的是使用,對於一個大型的數據倉庫來說,數據使用的場景和需求是多變的,那麼可以使用 BI 類的產品快速獲取需要的數據,並分析形成報表,像派可數據就屬於專業的BI廠商。
數據共享交換:數據共享包括組織內部和組織之間的數據共享,共享方式也分為庫表、文件和 API 介面三種共享方式,庫表共享比較直接粗暴,文件共享方式通過 ETL 工具做一個反向的數據交換也就可以實現。我們比較推薦的是 API 介面共享方式,在這種方式下,能夠讓中心數據倉庫保留數據所有權,把數據使用權通過 API 介面的形式進行了轉移。API 介面共享可以使用 API 網關實現,常見的功能是自動化的介面生成、申請審核、限流、限並發、多用戶隔離、調用統計、調用審計、黑白名單、調用監控、質量監控等等。
D. 什麼是資源目錄
信息資源目錄,是信息資源整合過程中需要實現的信息資源分類、展現以供信息資源共享與交換,實現信息資源整合。政府信息資源目錄是以元數據為核心,以政務分類表和主題詞表為控制詞表,對行業數據資源進行網狀組織,滿足從分類、主題、應用等多個角度對政府信息資源進行管理、識別、定位、發現、評估與選擇。
E. 數據目錄與資源目錄的區別
1.數據目錄數據目錄的物理位置為:/data/data/com.tencent.mm/MicroMsg 。這裡面保存的是聊天記錄資料庫文件和一些配置,並且通過91手機助手之類軟體的文件管理是看不到的,...
2.資源目錄資源目錄的物理位置為:/sdcard/tencent/MicroMsg 。文件夾名字與數據目錄的文件夾名是一樣的...
3.如何區別一個MicroMsg是數據目錄還是資源目錄如果你不知道導出來的MicroM
F. 大數據治理和數據治理的區別概述
1、什麼是數據治理
數據治理(Data Governance)是組織中涉及數據使用的一整套管理行為。由企業數據治理部門發起並推行,關於如何制定和實施針對整個企業內部數據的商業應用和技術管理的一系列政策和流程。
數據的質量直接影響著數據的價值,並且直接影響著數據分析的結果以及我們以此做出的決策的質量。我們常說,用數據說話,用數據支撐決策管理,但低質量的數據、甚至存在錯誤的數據,必然會"說假話"!!! 數據治理即提高數據的質量,發揮數據資產價值。
2、數據治理的目的
降低風險
建立數據使用內部規則
實施合規要求
改善內部和外部溝通
增加數據價值
方便數據管理
降低成本
通過風險管理和優化來幫助確保公司的持續生存
3、數據治理的方法
從技術實施角度看,數據治理包含「理」「采」「存」「管」「用」這五個步驟,即業務和數據資源梳理、數據採集清洗、資料庫設計和存儲、數據管理、數據使用。
數據資源梳理:數據治理的第一個步驟是從業務的視角釐清組織的數據資源環境和數據資源清單,包含組織機構、業務事項、信息系統,以及以資料庫、網頁、文件和 API 介面形式存在的數據項資源,本步驟的輸出物為分門別類的數據資源清單。
數據採集清洗:通過可視化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)將數據從來源端經過抽取 (extract)、轉換 (transform)、載入 (load) 至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
基礎庫主題庫建設:一般情況下,可以將數據分為基礎數據、業務主題數據和分析數據。基礎數據一般指的是核心實體數據,或稱主數據,例如智慧城市中的人口、法人、地理信息、信用、電子證照等數據。主題數據一般指的是某個業務主題數據,例如市場監督管理局的食品監管、質量監督檢查、企業綜合監管等數據。而分析數據指的是基於業務主題數據綜合分析而得的分析結果數據,例如市場監督管理局的企業綜合評價、產業區域分布、高危企業分布等。那麼基礎庫和主題庫的建設就是在對業務理解的基礎上,基於易存儲、易管理、易使用的原則抽像數據存儲結構,說白了,就是基於一定的原則設計資料庫表結構,然後再根據數據資源清單設計數據採集清洗流程,將整潔干凈的數據存儲到資料庫或數據倉庫中。
元數據管理:元數據管理是對基礎庫和主題庫中的數據項屬性的管理,同時,將數據項的業務含義與數據項進行了關聯,便於業務人員也能夠理解資料庫中的數據欄位含義,並且,元數據是後面提到的自動化數據共享、數據交換和商業智能(BI)的基礎。需要注意的是,元數據管理一般是對基礎庫和主題庫中(即核心數據資產)的數據項屬性的管理,而數據資源清單是對各類數據來源的數據項的管理。
血緣追蹤:數據被業務場景使用時,發現數據錯誤,數據治理團隊需要快速定位數據來源,修復數據錯誤。那麼數據治理團隊需要知道業務團隊的數據來自於哪個核心庫,核心庫的數據又來自於哪個數據源頭。我們的實踐是在元數據和數據資源清單之間建立關聯關系,且業務團隊使用的數據項由元數據組合配置而來,這樣,就建立了數據使用場景與數據源頭之間的血緣關系。 數據資源目錄:數據資源目錄一般應用於數據共享的場景,例如政府部門之間的數據共享,數據資源目錄是基於業務場景和行業規范而創建,同時依託於元數據和基礎庫主題而實現自動化的數據申請和使用。
質量管理:數據價值的成功發掘必須依託於高質量的數據,唯有準確、完整、一致的數據才有使用價值。因此,需要從多維度來分析數據的質量,例如:偏移量、非空檢查、值域檢查、規范性檢查、重復性檢查、關聯關系檢查、離群值檢查、波動檢查等等。需要注意的是,優秀的數據質量模型的設計必須依賴於對業務的深刻理解,在技術上也推薦使用大數據相關技術來保障檢測性能和降低對業務系統的性能影響,例如 Hadoop,MapRece,HBase 等。
商業智能(BI):數據治理的目的是使用,對於一個大型的數據倉庫來說,數據使用的場景和需求是多變的,那麼可以使用 BI 類的產品快速獲取需要的數據,並分析形成報表,像派可數據就屬於專業的BI廠商。
數據共享交換:數據共享包括組織內部和組織之間的數據共享,共享方式也分為庫表、文件和 API 介面三種共享方式,庫表共享比較直接粗暴,文件共享方式通過 ETL 工具做一個反向的數據交換也就可以實現。我們比較推薦的是 API 介面共享方式,在這種方式下,能夠讓中心數據倉庫保留數據所有權,把數據使用權通過 API 介面的形式進行了轉移。API 介面共享可以使用 API 網關實現,常見的功能是自動化的介面生成、申請審核、限流、限並發、多用戶隔離、調用統計、調用審計、黑白名單、調用監控、質量監控等等。
4、數據治理流程
基本流程:發現數據質量問題 > 定義數據質量規則 > 質量控制 > 質量評估 > 質量優化
G. 什麼是政務信息資源政務信息資源目錄有哪些
政務信息資源是指政..府中與信息採集能力,信息處理能力,信息利用能力,以及信息交流能力有關的一切資源,包括人員、設備、資金、信息及技術。換而言之,政務信息資源並不僅僅指政..府信息而言,其涵義和涉及的范圍比信息本身更要廣泛得多。相應地,政務信息資源的管理也包括對人員、設備、資金及技術的管理。政務信息資源看作是等同於政..府.部.門的人力資源、物質資源和財務資源的組織資源,政務信息資源管理從支持政..府職能發展到政府的管理職能,同政..府的其他重要職能一樣重要。
政務信息資源目錄體系的關鍵標准包括 6個方面的內容,其中「第1部分:總體框架」規定了政務信息資源目錄體系的總體結構、基本功能等內容;「第2部分:技術要求」規定了政務信息資源目錄體系建設的基本技術要求;「第3部分:核心元數據」規定了公共資源核心元數據和交換服務資源核心元數據應當遵循的內容標准;「第 4部分:政務信息資源分類」規定了政務信息資源的分類與編碼;「第5部
分:政務信息資源標識符編碼方案」規定了政務信息資源的唯一標識符編碼方案;「第 6部分:管理要求」規定了政務信息資源目錄體系的基本管理要求。
(1) 總體框架
「總體框架」給出了政務信息資源目錄體系所涉及的關鍵術語,定義了政務信息資源、公共資源、交換資源、政務信息資源目錄體系等關鍵概念,明確了政務信息資源目錄的管理者、提供者和使用者三個角色及其職責。各級政務部門工作人員和相關的技術開發人員在建設政務信息資源目錄體系時,可按照「總體框架」規定的總體結構建立起符合其概念模型的政務信息資源目錄系統,並要實現對目錄內容的編目、注冊、發布、查詢和維護等基本功能。
(2) 技術要求
目錄技術要求的核心是目錄服務規范,它能夠整合分布在各部門的政務信息資源,並形成完整的政務信息資源目錄體系,為政務信息資源的交換建立良好的基礎。
目錄服務規范主要定義由發現和管理兩大類介面組成,並為其提供外部介面。其中,發現服務是對政務信息資源的查找、瀏覽、定位功能。發現服務對政務信息資源的查找、瀏覽及定位是通過元數據進行的,提供對政務信息資源的元數據級的訪問。管理服務提供對目錄本身的管理功能,如修改目錄信息、增加或刪除目錄等。根據不同的應用需求,目錄服務規范規定了針對公共資源的服務介面規范和交換服務資源的服務介面規范兩部分的技術規定。
(3) 元數據
從組成上來說,元數據的主要內容包括信息資源的標識、內容、分發、數據質量、數據表現、數據模式、圖示表達、限制和維護等信息。
標識是信息資源的一個重要特性,包括信息資源的唯一標識符、信息資源的摘要信息、創建信息資源目的、信息資源的狀態等信息。內容重點描述信息資源的基本數據組成,包括信息資源包含哪些具體的數據。分發著重說明使用者如何獲得信息資源的信息,包括數據分發格式信息、分發者信息以及用戶獲取數據集的途徑。數據質量信息包含數據志信息以及數據質量報告等內容,數據志說明的是信息資源的生產依據和過程,數據質量報告給出了按特定的數據生產標准進行評價的結果。數據表現確定了數據的展現方式,包括圖形、影像、文字等方式的說明。數據模式信息包含有關數據的物理模式的信息。圖示表達則進一步說明了採用圖形進行數據表達的具體規則。限制和維護信息既包括信息資源本身也包括元數據的使用以及日常維護方面的信息。
一般來說,元數據的具體組成需要結合具體的領域、部門以及具體的信息資源的情況來加以確定。
H. 什麼是大數據垃圾進垃圾出
企業數據治理的三個階段
企業如何進行數據治理,會採用不同的方法和路徑。就大部分企業而言,以下三步是數據治理方案落地的必經之路。
第一步對企業數據進行歸集和標准化。
信息化領域有一個說法就是「垃圾進,垃圾出」,意指用臟亂的數據做樣本,產生的研究成果也是毫無價值的。數據的污染可能發生在數據產生、採集、傳輸、流轉、加工、存儲、提取、交換等各個環節,因此要保證數據治理目標的實現,就必須對數據進行全流程的管控,要在數據標准、數據質量、數據文件交換、元數據、數據生命周期、主輔數據源、數據安全、數據責任等方面形成統一的數據治理規范。
第二步就是數據模型管理和標簽梳理。
數據治理的核心是數據模型管理。目前企業原始資料庫中存在大量的欄位和表沒有注釋,意思含糊不清,同名不同義、同義不同名,冗餘欄位、枚舉值不一致的現象普遍存在。這些問題都會直接影響系統對數據的識別。數據建模讓數據結構更加豐富和結構清晰化,便於數據口徑統一。企業沉澱了大量數據模型之後,要及時做保留或刪除管理,不做數據模型管控,那麼這些歷史問題會給新一代系統改造帶來很多困擾。
除此之外,數據標簽是對數據實體特徵的符號表示,每一個數據標簽都是我們認識、觀察和描述數據實體的一個角度。因此內部統一標簽也至關重要。商品標簽包含了條碼、規格、口味、圖片、包裝等信息。顧客標簽包括性別、年齡、地區、興趣愛好、產品偏好、購買力、忠誠度等等。
在實際的數據治理中,數據資源目錄、數據分類、數據標簽是相互配合、相輔相成的。建立良好的數據資源目錄的第一步就是明確數據資源的分類,根據數據分類去組織資源、編目,之後是為數據資源打上數據標簽,讓數據資源更貼近用戶、更容易管理,以便充分發揮出數據的價值。
第三步是企業演算法和人工智慧應用。
在對企業數據進行歸集和標准化,並對數據模型進行管控和標簽梳理之後,就可以對數據進行管理,並輔之以相應演算法和人工智慧,在具體業務場景應用。
以數據模型管理為例:人工智慧可以幫助企業實現經驗模型與計算機模型的完美融合,構建商品和會員的知識圖譜。
以元數據管理為例:人工智慧實現對非結構化數據的採集和關鍵信息的提取,並實現元數據的維護和整理。
再以主數據管理為例:主數據是企業核心業務實體的數據,是在整個價值鏈上被重復、共享應用與多個業務流程的,並與各個業務部門與各個系統之間共享的基礎數據。在復雜數據主數據系統中,機器學習,自然語言處理等人工智慧技術可以幫助定義和維護數據匹配規則,以及確定與主數據相關的記錄,建立交叉引用等規則。
億信華辰作為國內領先的數據治理、數據分析軟體廠商,在數據治理、數據分析工作開展的各個階段提供專業技術人員和解決方案支持。服務電話:4000011866轉0。
億信華辰睿治數據治理工具,是一款榮獲DAMA數據治理優秀產品獎的大數據治理工具,融合元數據管理、數據標准管理、數據質量管理、主數據管理等模塊,可快速滿足政府、金融、稅務、醫療衛生、應急能源等100+行業數據治理方案。
I. 數據治理包括哪些方面
從技術實施角度看,數據治理包含「理」「采」「存」「管」「用」這五個步驟,即業務和數據資源梳理、數據採集清洗、資料庫設計和存儲、數據管理、數據使用。
數據資源梳理:數據治理的第一個步驟是從業務的視角釐清組織的數據資源環境和數據資源清單,包含組織機構、業務事項、信息系統,以及以資料庫、網頁、文件和 API 介面形式存在的數據項資源,本步驟的輸出物為分門別類的數據資源清單。
數據採集清洗:通過可視化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)將數據從來源端經過抽取 (extract)、轉換 (transform)、載入 (load) 至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
基礎庫主題庫建設:一般情況下,可以將數據分為基礎數據、業務主題數據和分析數據。基礎數據一般指的是核心實體數據,或稱主數據,例如智慧城市中的人口、法人、地理信息、信用、電子證照等數據。主題數據一般指的是某個業務主題數據,例如市場監督管理局的食品監管、質量監督檢查、企業綜合監管等數據。而分析數據指的是基於業務主題數據綜合分析而得的分析結果數據,例如市場監督管理局的企業綜合評價、產業區域分布、高危企業分布等。那麼基礎庫和主題庫的建設就是在對業務理解的基礎上,基於易存儲、易管理、易使用的原則抽像數據存儲結構,說白了,就是基於一定的原則設計資料庫表結構,然後再根據數據資源清單設計數據採集清洗流程,將整潔干凈的數據存儲到資料庫或數據倉庫中。
元數據管理:元數據管理是對基礎庫和主題庫中的數據項屬性的管理,同時,將數據項的業務含義與數據項進行了關聯,便於業務人員也能夠理解資料庫中的數據欄位含義,並且,元數據是後面提到的自動化數據共享、數據交換和商業智能(BI)的基礎。需要注意的是,元數據管理一般是對基礎庫和主題庫中(即核心數據資產)的數據項屬性的管理,而數據資源清單是對各類數據來源的數據項的管理。
血緣追蹤:數據被業務場景使用時,發現數據錯誤,數據治理團隊需要快速定位數據來源,修復數據錯誤。那麼數據治理團隊需要知道業務團隊的數據來自於哪個核心庫,核心庫的數據又來自於哪個數據源頭。我們的實踐是在元數據和數據資源清單之間建立關聯關系,且業務團隊使用的數據項由元數據組合配置而來,這樣,就建立了數據使用場景與數據源頭之間的血緣關系。 數據資源目錄:數據資源目錄一般應用於數據共享的場景,例如政府部門之間的數據共享,數據資源目錄是基於業務場景和行業規范而創建,同時依託於元數據和基礎庫主題而實現自動化的數據申請和使用。
質量管理:數據價值的成功發掘必須依託於高質量的數據,唯有準確、完整、一致的數據才有使用價值。因此,需要從多維度來分析數據的質量,例如:偏移量、非空檢查、值域檢查、規范性檢查、重復性檢查、關聯關系檢查、離群值檢查、波動檢查等等。需要注意的是,優秀的數據質量模型的設計必須依賴於對業務的深刻理解,在技術上也推薦使用大數據相關技術來保障檢測性能和降低對業務系統的性能影響,例如 Hadoop,MapRece,HBase 等。
商業智能(BI):數據治理的目的是使用,對於一個大型的數據倉庫來說,數據使用的場景和需求是多變的,那麼可以使用 BI 類的產品快速獲取需要的數據,並分析形成報表,像派可數據就屬於專業的BI廠商。
數據共享交換:數據共享包括組織內部和組織之間的數據共享,共享方式也分為庫表、文件和 API 介面三種共享方式,庫表共享比較直接粗暴,文件共享方式通過 ETL 工具做一個反向的數據交換也就可以實現。我們比較推薦的是 API 介面共享方式,在這種方式下,能夠讓中心數據倉庫保留數據所有權,把數據使用權通過 API 介面的形式進行了轉移。API 介面共享可以使用 API 網關實現,常見的功能是自動化的介面生成、申請審核、限流、限並發、多用戶隔離、調用統計、調用審計、黑白名單、調用監控、質量監控等等。