㈠ 大數據時代如何做好數據治理
企業數據分析系統的數據來源是各個業務系統或手工數據,這些數據的格式、內容等都有可能不同。如果不進行數據治理,數據的價值難以發揮。只有對數據標准進行規范,管理元數據、數據監控等,才能得到高質量的數據。得到規范的數據後,才可在此基礎上進行主題化的數據建模、數據挖掘、數據分析等。
2013年被眾多的IT人定義為中國的大數據元年,這一年國內的大數據項目開始在交通、電信、金融部門被廣泛推動。各大銀行對Hadoop的規劃、POC尤其風生水起,帶動了一波大數據應用的熱潮,這個熱潮和當初數據倉庫進入中國時的2000年左右很相似:應用還沒有想好,先歸集一下數據,提供一些查詢和報表,以技術建設為主,業務推動為輔。這就導致了這股Hadoop熱潮起來的時候,傳統企業都是以數據歸集為主的,而BAT這樣的企業則天生以數據為生,早早進入了數據驅動技術和業務創新的階段。
隨著Hadoop技術的提升,數據如何進來,如何整合,開展什麼樣的應用都已經有了成熟的案例,可是,同傳統數倉時代一樣,垃圾進垃圾出,如何破?相比傳統數倉時代,進入Hadoop集群的數據更加的多樣、更加的復雜、量更足,這個數倉時代都沒有處理好的事情,如何能夠在大數據時代處理好,這是所有大數據應用者最最期盼的改變,也是大數據平台建設者最有挑戰的難題:數據治理難的不是技術,而是流程,是協同,是管理。 睿治數據治理平台平台架構
元數據:採集匯總企業系統數據屬性的信息,幫助各行各業用戶獲得更好的數據洞察力,通過元數據之間的關系和影響挖掘隱藏在資源中的價值。
數據標准:對分散在各系統中的數據提供一套統一的數據命名、數據定義、數據類型、賦值規則等的定義基準,並通過標准評估確保數據在復雜數據環境中維持企業數據模型的一致性、規范性,從源頭確保數據的正確性及質量,並可以提升開發和數據管理的一貫性和效率性。
數據質量:有效識別各類數據質量問題,建立數據監管,形成數據質量管理體系,監控並揭示數據質量問題,提供問題明細查詢和質量改進建議,全面提升數據的完整性、准確性、及時性,一致性以及合法性,降低數據管理成本,減少因數據不可靠導致的決策偏差和損失。
數據集成:可對數據進行清洗、轉換、整合、模型管理等處理工作。既可以用於問題數據的修正,也可以用於為數據應用提供可靠的數據模型。
主數據:幫助企業創建並維護內部共享數據的單一視圖,從而提高數據質量,統一商業實體定義,簡化改進商業流程並提高業務的響應速度。
數據資產:匯集企業所有能夠產生價值的數據資源,為用戶提供資產視圖,快速了解企業資產,發現不良資產,為管理員提供決策依據,提升數據資產的價值。
數據交換:用於實現不同機構不同系統之間進行數據或者文件的傳輸和共享,提高信息資源的利用率,保證了分布在異構系統之間的信息的互聯互通,完成數據的收集、集中、處理、分發、載入、傳輸,構造統一的數據及文件的傳輸交換。
生命周期:管理數據生老病死,建立數據自動歸檔和銷毀,全面監控展現數據的生命過程。
數據安全:提供數據加密、脫敏、模糊化處理、賬號監控等各種數據安全策略,確保數據在使用過程中有恰當的認證、授權、訪問和審計等措施。
建立完整的、科學的、安全的、高質量的數據管控技術體系,是首要的任務。作為數據管控的基石,為了更好支撐後續工作的開展,技術體系必須一步到位,是功能完備、高質量、高擴展性的,而不是僅實現部分功能,或者功能不完善的「半成品」。
疊加更多業務數據、細化數據業務屬性與管理屬性、優化與調整數據管控流程,尤其是適應未來的現代企業數據管控制度的建立完善,是逐步積累推廣、不斷磨合改進的長期過程。這些工作應及早啟動,並成為後續大數據平台建設工作的重點。
談大數據時代的數據治理 當前要做的是功能框架的完善,而完善的著力點則是「數據資產目錄」:用資產化的視角來管理一個企業的數據,只有把數據作為資產來認識和管理,大數據項目才能達成預期,也能夠治理好。大數據時代帶來的價值,個人認為主要有兩個,一個是技術架構,主要是架構理念的進步,另外一個更重要的則是對數據的重視。大數據時代是數據的時代,IT向DT轉型,不單單是BAT,所有的IT公司,未來都在數據這兩個字上。
對於一個企業來說,把數據作為資產,才是建設大數據的最終目的,而不是僅僅是因為Hadoop架構帶來性價比和未來的擴展性。當一個企業把數據作為資產,他就像管理自己名下存摺、信用卡一樣,定期梳理,無時無刻不關心資產的變化情況,關注資產的質量。
而資產目錄就是管理資產的形式和手段,他像菜單一樣對企業的資產進行梳理、分門別類,提供給使用者;使用者通過菜單,點選自己需要的數據,認可菜單對應的後端處理價值,後廚通過適當的加工,推出相應的數據服務;這是一個標準的流程,而這些流程之上,附著一整套數據管理目標和流程。
大數據平台以數據資產目錄為核心,將元數據、數據標准、主數據、數據質量、數據生命周期、數據輪廓等信息在邏輯層面關聯起來,在管理層面上整合成統一的整體,構建起數據管理體系,全面的支持數據服務等具體應用。
大數據平台實現了數據存儲、清洗和應用。在數據匯入和匯出的過程中,需要對數據的元數據進行統一記錄和管理,以利於後續的數據應用和數據血緣分析。數據質量一直是數據集成系統的基礎工作,對數據的各個環節設置數據質量檢查點,對數據質量進行剖析、評估,以保證後續應用的可信度。
在數據收集的過程中,隨著數據維度、指標的聚集,如何找到所需的業務指標及屬性,並且評估相關屬性的業務及技術細節,需要對收集的所有數據進行業務屬性,並進行分類,建立完善的數據資產目錄。
數據資產目錄是整個大數據平台的數據管理基礎,而數據資產目錄由於數據的多樣性,在使用的過程中,必然涉及數據許可權的申請、審批管控流程,而管控流程的建立依賴於相應崗位的設立和對應職責的建立。
大數據平台的數據管理架構規劃,通過數據物理集中和數據邏輯整合,徹底擺脫企業「數據豎井」的困境。大數據平台數據管理架構分為功能架構、流向規劃和數據架構三個層面。
數據管理功能架構:借鑒DAMA數據管理和DMM數據成熟度理論,著眼於數據管理技術和數據管理流程融合,組織數據管理功能。
數據流向規劃架構:規劃整個大數據平台的數據流向,並在數據流入、數據整合、數據服務的具體環節實現精細化管理。
數據管理的數據架構:以數據資產目錄為核心,數據項為最小管理單元,將技術元數據(實體、屬性和關系)、業務元數據和管理元數據(數據標准、主數據、數據質量、數據安全)融合為彼此緊密聯系、密不可分的整體,共同構成精細化管理的數據基礎。
數據管理在整個大數據平台不僅僅是一個主要功能模塊,它還是整個企業層面數據治理的重要組成部分,它是技術和管理流程的融合,也需要合理管控流程框架下組織機構之前的協調合作。如何利用統一的數據管理模塊對企業所有進入到數據湖的數據進行有效管控,不單單取決於數據管理模塊本身,也取決於元數據的合理採集、維護,組織結構及制度的強力支持保證。
談大數據時代的數據治理 大數據平台數據管理參照了DAMA對於數據管理的九個管理目標,並進行裁剪,並對部分管理目標進行了合並,並參照了CMMI制定DMM數據成熟度目標,採用循序漸進,逐步完善的策略對管理目標進行分階段完成,制定完整的管控流程和數據治理規范,以便持續的對數據進行管理,遞進實現DMM定義的成熟度目標。
億信睿治數據治理管理平台和DAMA的對應關系如下:
談大數據時代的數據治理 大數據平台數據管理的核心內容是數據資產目錄,圍繞數據資產目錄的數據流入、數據整合、數據服務都是數據管理的核心。數據管理主要管理數據的流動,以及管理流動帶來的數據變化,並對數據底層的數據結構、數據定義、業務邏輯進行採集和管理,以利於當前和未來的數據使用。為了更好的對數據進行管理和使用,制度層面的建設、流程的設立必不可少,同時也兼顧到數據在流動過程中產生的安全風險和數據隱私風險。
因此數據管理介入到完整的數據流轉,並在每個節點都有相應的管理目標對應,整個數據流框架如下圖所示:
談大數據時代的數據治理 企業在建制大數據平台的同時,對進入數據湖的數據進行梳理,並按照數據資產目錄的形式對外發布。在發布數據資產之後,則對進出數據湖的數據進行嚴格的出入庫管理,保證數據可信度,並定期進行數據質量剖析檢查,確保數據資產完善、安全、可信,避免「不治理便破產」的讖言。
㈡ 安徽省政務數據資源管理辦法
第一章總 則第一條為了規范政務數據資源管理,推進政務信息系統互聯互通和政務數據歸集、共享、應用,建設數字政府,提升政府治理能力和公共服務水平,根據有關法律、法規,結合本省實際,制定本辦法。第二條本辦法適用於本省行政區域內政務數據資源的採集、歸集、存儲、提供、共享、應用及其管理活動。
本辦法所稱政務數據,是指政府部門及法律、法規授權具有行政職能的組織(以下稱政務部門)在履行職責過程中製作或者獲取的,以電子或者非電子形式記錄、保存的文字、數字、圖表、圖像、音頻、視頻等,包括政務部門直接或者通過第三方依法採集的、依法授權管理的和因履行職責需要依託政務信息系統形成的數據等。第三條政務數據資源管理,應當遵循統一標准、統籌建設、共享開放、依法管理、保障安全的原則。第四條縣級以上人民政府應當加強對政務數據資源管理工作的組織領導,建立統籌協調工作機制,將政務數據資源開發建設納入本行政區域國民經濟和社會發展規劃。加強經費保障,將政務數據資源整合共享相關項目建設資金納入政府固定資產投資,政務數據資源整合共享相關工作經費納入部門預算統籌安排。按照長江三角洲區域一體化發展戰略的要求,推動平台融合貫通、數據資源共享、業務協同辦理,深化政務數據資源管理工作的合作交流。第五條縣級以上人民政府數據資源主管部門負責統籌協調、指導督促本行政區域內政務數據資源管理工作。
政務部門是政務數據的提供部門和使用部門,負責本部門本系統政務數據資源的目錄編制、採集、歸集、存儲、提供、共享、應用和開放及其相關管理工作。第六條政務數據資源管理,應當維護國家安全、公共安全,保守國家秘密,保護商業秘密、個人信息和隱私,對在履行職責中知悉的商業秘密、個人信息和隱私嚴格保密,不得泄露、出售或者非法向他人提供。第二章開發建設第七條本省建設江淮大數據中心平台,共建共用數據基礎設施,推進各類政務數據互聯互通、歸集匯聚、共享開放、開發應用。除國家另有規定外,政務部門不得新建數據中心。
政務部門應當依託江淮大數據中心平台,推動各類政務數據統一目錄編制、歸集、存儲、提供、共享、應用和開放。第八條江淮大數據中心平台分為總平台、分平台和子平台,組成江淮大數據中心框架體系。
省人民政府數據資源主管部門負責江淮大數據中心總平台以及省級政務雲平台、電子政務外網、災難備份中心等的建設和運行管理。
省政務部門負責江淮大數據中心分平台的建設和運行管理。
設區的市人民政府數據資源主管部門負責統籌本轄區江淮大數據中心子平台、政務雲平台、電子政務外網等的建設和運行管理。
本辦法施行前已經建成的數據中心等,應當與江淮大數據中心平台和本級政務雲平台互聯互通。第九條政務部門非涉密政務信息系統應當依託江淮大數據中心平台及政務雲平台進行建設和部署,實現互聯互通、數據共享、業務協同。除法律、法規、規章另有規定外,不能實現互聯互通、數據共享、業務協同的非涉密政務信息系統,不得審批建設,不得安排運維經費。第十條政府投資的政務數據資源、政務信息化項目,在項目審批前應當報本級人民政府數據資源主管部門初審。市、縣人民政府對項目審批程序另有規定的,從其規定。
政務信息化項目立項申請前,應當預編形成項目數據資源目錄,作為項目審批要件。第十一條政府投資的政務數據資源、政務信息化項目竣工後由建設單位或者本級人民政府指定的部門組織驗收,並將驗收報告報本級人民政府數據資源主管部門備案。驗收報告應當包括建設目標和任務、系統功能、數據共享開放、安全等級保護、標准化建設等完成情況。
政府投資的政務數據資源、政務信息化項目應當將項目數據資源目錄納入共享平台目錄管理系統,作為項目驗收要求。第十二條政務數據資源、政務信息化項目的建設和管理,可以採用政府購買服務的方式,適應快速迭代的應用開發需要。第三章數據歸集第十三條本省政務數據資源按照國家有關規定由省數據資源主管部門實行統一的目錄管理。
目錄管理應當明確政務數據的分類、責任主體、格式、屬性、更新時限、共享類型、共享方式、使用要求等內容。
省人民政府數據資源主管部門負責提出政務數據資源目錄編制要求,組織協調省政務部門和設區的市開展目錄編制,審核、匯總後形成省統一的政務數據資源目錄。
㈢ 產品運營如何做好數據挖掘與分析
對於產品和運營避免不了要和數據打交道,在打交道的同時如何讓數據為產品和運營服務呢?從數據的變化中發現產品的問題,讓數據說話,准確的匯報產品和運營的各維度指標的。那就需要通過一些維度來定義產品、運營數據。對於產品和數據分析一般思路可以歸集為:了解產品現狀的數據、了解發展趨勢的數據呈現、發現問題的數據記錄、認清用戶對產品的使用情況的數據、營銷和推廣數據。數據分析的維度科劃分為:產品現狀、了解趨勢、發現問題、認清用戶、營銷與推廣。
對於著幾個大維度,又回需要不同小維度的劃分。產品現狀維度會記錄數據的來源、PV、UV、人數、次數、收入、用戶屬性、活躍度。通過這些數據來考量產品的現狀。了解趨勢的數據,環比、同比、流動模型、增長率、留存率、流失率。發現問題的收集:漏洞模型、問卷調查。認清用戶偏好的數據:功能模塊使用(數據埋點)、以及熱度分析。運營推廣的數據:精準化投放、用戶生命周期的管理、拉新、留存等。
㈣ 中國國家統計局網站中的統計年鑒里的數據是如何採集的
國家統計獨立調查的數據主要來自國家統計局的三個直屬調查隊:農村社會經濟調查隊、城市社會經濟調查隊和企業調查隊。通過抽樣調查的方法,他們得出全國的糧食產量、棉花產量、主要畜禽產品產量;年產品銷售收入500萬元以下(規模以下)的非國有工業企業、小型商業企業、個體工商戶的產值和增加值;農村固定資產投資、城鄉居民住戶收入和支出、商品和服務的價格
傳統的統計方法以全面報表為主,基層單位向地方政府統計部門報送報表,然後層層匯總到國家統計局。一般來說,這種調查方法由於涉及的單位多,需要的人員多,因而難以保證基層統計資料的准確性。抽樣調查涉及的單位少,需要的人手相對也少,因此有可能對統計人員進行較全面的業務培訓,從而能夠提高基層統計資料的質量。