1. 數據採集原則
全國地質鑽孔基本信息的採集以地勘單位保管的除油氣以外的區域地質、礦產地質、水文地質、工程地質(大型以上項目)、環境地質、災害地質勘查等形成的地質鑽孔基本信息為主。
地勘單位以地質工作項目為單元,清查地質工作項目施工的鑽孔,逐個鑽孔填報信息表。只採集鑽孔的最基本信息,不清查每個鑽孔的詳細原始編錄內容、測試數據等。
對於地質項目工作中收集的鑽孔資料不予清查和填報。
2. 數據質量與數據質量八個維度指標
數據質量與數據質量八個維度指標
數據的質量直接影響著數據的價值,並且直接影響著數據分析的結果以及我們以此做出的決策的質量。質量不高的數據不僅僅是數據本身的問題,還會影響著企業經營管理決策;錯誤的數據還不如沒有數據,因為沒有數據時,我們還會基於經驗和基於常識的判斷來做出不見得是錯誤的決策,而錯誤的數據會引導我們做出錯誤的決策。因此數據質量是企業經營管理數據治理的關鍵所在。
數據的質量可以從八個方面進行衡量,每個維度都從一個側面來反映數據的品相。八個維度分別是:准確性、真實性、完整性、全面性、及時性、即時性、精確性和關聯性。
我們在比較兩個數據集的品相的時候往往採用這種圖形表示。比如說,常規來講內部數據採集的准確性、真實性、完整性高,而全面性、及時性、即時性、精確性和關聯性方面取決於企業內部對數據的重視程度以及採用的技術手段的先進性有關;外部數據集,比如說微博數據、互聯網媒體數據等,其全面性、及時性和即時性都可以通過技術手段,如網路爬蟲等得到提高,但在准確性、真實性、精確性上難以保證,也難以控制,在關聯性方面取決於數據採集和挖掘的相關技術。
我們也可以用這個模型來衡量公司內部各個職能部門數據的品相。下圖是個示意,通過數據質量8大指標的評價,我們可以對企業內部數據治理有針對性地採取措施去提高企業的數據質量。
數據的准確性
數據的准確性(Accuracy)是指數據採集值或者觀測值和真實值之間的接近程度,也叫做誤差值,誤差越大,准確度越低。數據的准確性由數據的採集方法決定的。
數據的精確性
數據的精確性(Precision)是指對同一對象的觀測數據在重復測量時所得到不同數據間的接近程度。精確性,也可以叫精準性。精確性與我們數據採集的精度有關系。精度高,要求數據採集的粒度越細,誤差的容忍程度越低。
測量人的身高,我們可以精確到厘米,多次測量差異只會在厘米級別;測量北京到上海的距離,我們精確到公里,多次測量結果間的差異會在公里級別;採用游標卡尺測量一個零件的厚度,可以精確到1/50毫米,多次測量的結果間的誤差也只會在1/50毫米間。採用的測量方法和手段直接影響著數據的精確性。
數據的真實性
數據的真實性,也叫數據的正確性(Rightness)。數據的正確性取決於數據採集過程的可控程度,可控程度高,可追溯情況好,數據的真實性容易得到保障,而可控程度低或者無法追溯,數據造假後無法追溯,則真實性難以保證。
為了提高數據的真實性,採用無人進行過程干涉的智能終端直接採集數據,能夠更好地保證所採集數據的真實性,減少人為干預,減少數據造假,從而讓數據更加正確地反應客觀事物。
數據的及時性
數據的及時性(In-time)就是數據能否在需要的時候得到保證。我們月初會對上個月的經營和管理數據進行統計匯總,這些數據能否及時處理完成,財務能否在月度關賬後及時核算。數據的及時性是我們數據分析和挖掘及時性的保障。如果公司的財務核算復雜,核算速度緩慢,上個月的數據在月中才能統計匯總完成,等需要調整財務策略的時候,已經到了月底了,一個月已經快過完了。特別是公司做大了之後,業務覆蓋多個市場、多個國家,數據不能及時匯總,會影響到高層決策的及時程度。
數據的及時性與企業數據處理的速度和效率有直接的關系,為了提高數據的及時性,越來越多的公司採用管理信息系統,並在管理信息系統中附加各種自動數據處理功能,能夠在數據上傳系統之後自動完成絕大部分報表,從而保證數據處理的效率。計算機自動處理中間層數據是提高企業數據處理效率的有效手段。
除了保證數據採集的及時性和數據處理的效率問題外,還需要從制度和流程上保證數據傳輸的及時性。數據報表完成了,要及時或者在要求的時間范圍內發送到指定的部門,或者上傳到指定的存儲空間。
數據的即時性
數據的即時性是指數據採集時間節點和數據傳輸的時間節點,一個數據在數據源頭採集後立即存儲,並立即加工呈現,就是即時數據,而經過一段時間之後再傳輸到信息系統中,則數據即時性就稍差。
微博的數據採集,當用戶發布了微博,數據立即能夠被抓取和加工,會生成即時微博數據報告,並隨著時間推移,數據不斷變化,我們可以稱作是即時採集和處理的。一個生產設備的儀表即時反應著設備的溫度、電壓、電流、氣壓等數據,這些數據生成數據流,隨時監控設備的運行狀況,這個數據可以看作是即時數據。而當設備的即時運行數據存儲下來,用來分析設備運行狀況與設備壽命的關系,這些數據就成為歷史數據。
數據的完整性
數據的完整性是從數據採集到的程度來衡量的,是應採集和實際採集到數據之間的比例。一條信息採集12個數據點,如我們採集員工信息數據的時候,要求填寫姓名、出生日期、性別、民族、籍貫、身高、血型、婚姻狀況、最高學歷、最高學歷專業、最高學歷畢業院校、最高學歷畢業時間等12項信息,而某一員工僅僅填寫了部分信息,如只填寫了其中的5項,則該員工所填寫數據的完整性只有一半。
一個公司數據的完整性體現著這個公司對數據的重視程度。要求採集數據而實際上並未完整採集,只採集了一部分,這就是不完整的,往往是公司對數據採集質量要求不到位導致的。公司要求每個人都填寫完整的個人信息表,而有部分員工拒絕填寫,公司2000員工,只有1200人填寫了完整的個人信息表,則這個數據集就是不完整的。
另外,對於動態數據,我們可以從時間軸上去衡量數據採集的完整性。比如,我們要求每小時採集一次數據,每天會形成24個數據點,記錄為24條數據,但是員工瀆職,只記錄了20次,那麼這個數據集也是不完整的。
數據的全面性
數據的全面性和完整性不同,完整性衡量的是應採集和實際採集的差異。而全面性指的是數據採集點的遺漏情況。比如說,我們要採集員工行為數據,我們只採集了員工上班打卡和下班打卡的數據,上班時間的員工行為數據並未採集,或者沒有找到合適的方法來採集。那麼,這個數據集就是不全面的。
我們描述一個產品的包裝,僅僅描述了產品包裝的正面和背面,沒有記錄產品包裝的側面,則就是不全面的。我們記錄一個客戶的交易數據,我們只採集了客戶訂單中的產品、訂單中產品的價格和數量,而沒有採集客戶送貨地址、采購時間,這個數據採集就是不全面的。
騰訊QQ和微信的用戶數據記錄了客戶交流溝通的數據;阿里和京東的用戶數據記錄了用戶的購買交易數據;網路地圖記錄了用戶出行的數據;大眾點評和美團記錄了客戶餐飲娛樂的數據。對於全面描述一個人的生活的衣食住行各方面,這些公司的數據都是不全面的,而如果把他們的數據整合起來,則會形成更加全面的數據。所以說,數據的全面性說一個相對的概念。過度追求數據的全面性說不現實的。
數據的關聯性
數據的關聯性是指各個數據集之間的關聯關系。比如員工工資數據和員工績效考核數據是通過員工這個資源關聯在一起來的,而且績效數據直接關繫到工資的多少。采購訂單數據與生產訂單數據之間通過物料的追溯機制進行關聯,而生產訂單又是由員工完成的,即通過員工作業數據與員工信息數據關聯起來。
其實,我們本書探討的企業大數據,每個數據集都是相關關聯的,有些是直接關聯的,比如員工工資數據和員工績效數據,有些是間接關聯的,比如說物料采購訂單數據與員工工資數據。這些數據的關聯關系是由公司的資源,包括人、財、物和信息等,連接起來的。如果有任何的數據集不能連接到其他的數據集,就會存在數據割裂或者數據孤島。數據割裂和數據孤島是企業數據關聯性不足導致的。而數據的關聯性直接影響到企業數據集的價值。
3. 數據的質量體現在哪裡
數據質量主要包括:統計數據的內容質量、表述質量、約束標准三大方面。
統計數據的內容質量是統計數據最基本的特徵,它包括相關性、准確性與及時性。一旦缺少了其中任何一個,統計數據就失去了轉化為信息的性質和基本作用。因此,這三個特徵也可稱為統計數據質量的主要特徵。
數據是組織最具價值的資產之一。企業的數據質量與業務績效之間存在著直接聯系,高質量的數據可以使公司保持競爭力並在經濟動盪時期立於不敗之地。有了普遍深入的數據質量,企業在任何時候都可以信任滿足所有需求的所有數據。
4. 做定量分析,數據的來源途徑通常有哪些怎樣提高數據質量
一是數據的間接來源;一是數據的直接來源,提高數據質量方法如下:
1、准確性。數據在系統中應符合業務規則和統計口徑,常見的數據准確性的問題有:數據來源存在錯誤,數據採集、使用、管理的過程中,業務缺乏規范,導致數據缺乏准確性。
2、完整性。只有完整的數據才具有價值,企業常見的數據完整性的問題有:企業在實際業務操作中並未完整採集該欄位數據,導致數據缺失或不完整等。
3、一致性。企業系統內外部的數據源直接的數據需要一直,所以要提高企業數據,那麼就需要對數據統一規范。常見一致性問題:系統間應該相同的數據卻不一致,缺乏必要的聯動和核對。
4、及時性。數據在採集、傳送、處理等過程中,應該快速支持應用,數據的及時性關繫到系統是否可以在規定的試講內獲取到系統需要在特定時間內產生的數據。常見及時性問題:企業沒有按照規定的時間來更新數據。
5. 什麼是統計數據收集統計數據收集的基本要求是什麼
統計數據收集是按照確定的數據分析框架,收集相關數據的過程,它為數據分析提供了素材和依據。
統計數據收集的基本要求是准時性、及時性和全面性。
在收集數據的時候,一般我們把數據類型分為一手數據和二手數據這兩個類型。其中一手數據主要是指我們可以直接得到的數據,二手數據主要是指我們需要通過一定的方式對原始數據進行加工處理最後得到的可以進行使用的數據。
而在收集數據的時候,一手數據和二手數據的來源是不一樣的。一般數據來源主要有以下幾種方式:資料庫、公開出版物、互聯網、市場調查。
(5)統計數據採集的質量要求包括哪些擴展閱讀:
調查數據收集方法
1、問卷調查
問卷的要素,即構成一份完整的問卷所必須的組成部分,包括了標題組、申明組、指導語組、訪題組、說明組等內容。
依據訪問方式,問卷可分為面訪問卷和非面訪問卷;面訪問卷又可以區分面訪問答問卷和面訪自填問卷;非面訪問卷有紙版郵寄問卷、語音自填問卷、網路自填問卷、電話問答問卷等形式。除了面訪問卷與非面訪問卷以外,還有混合訪問形式。
2、訪談調查
訪談調查還可以再細分為結構式訪談和無結構式訪談,深度訪談和專題小組訪談。
3、觀察調查
根據觀察的場景,可以將觀察區分為實驗室觀察和實地觀察;根據觀察者的參與程序,可分為參與觀察和非參與觀察;根據觀察的准備程度,可分為結構性觀察和非結構性觀察。
4、文獻調查
文獻調查,是有目的地對文獻進行查詢,並從中獲得研究數據和參考數據的調查。根據用途,它可分為用於理論建構和論證的參考文獻調查與用於分析論證的數據文獻調查。
5、痕跡調查
痕跡調查可以通過痕跡證據與痕跡數據匯集在一起,用以證明或證偽事物之間的關系模式。另外也可以通過大數據及其研究方法,從大數據中選擇數據,調查之前同樣需要將研究假設和變數操作化。
6. 數據質量包括什麼方面
數據質量包括數據質量控制和數據治理。
數據是組織最具價值的資產之一。企業的數據質量與業務績效之間存在著直接聯系,高質量的數據可以使公司保持競爭力並在經濟動盪時期立於不敗之地。有了普遍深入的數據質量,企業在任何時候都可以信任滿足所有需求的所有數據。
一個戰略性和系統性的方法能幫助企業正確研究企業的數據質量項目,業務部門與 IT 部門的相關人員將各自具有明確角色和責任,配備正確的技術和工具,以應對數據質量控制的挑戰。
(6)統計數據採集的質量要求包括哪些擴展閱讀:
控制方法:
1、探查數據內容、結構和異常
第一步是探查數據以發現和評估數據的內容、結構和異常。通過探查,可以識別數據的優勢和弱勢,幫助企業確定項目計劃。一個關鍵目標就是明確指出數據錯誤和問題,例如將會給業務流程帶來威脅的不一致和冗餘。
2、建立數據質量度量並明確目標
Informatica的數據質量解決方案為業務人員和IT人員提供了一個共同的平台建立和完善度量標准,用戶可以在數據質量記分卡中跟蹤度量標準的達標情況,並通過電子郵件發送URL來與相關人員隨時進行共享。
3、設計和實施數據質量業務規則
明確企業的數據質量規則,即,可重復使用的業務邏輯,管理如何清洗數據和解析用於支持目標應用欄位和數據。業務部門和IT部門通過使用基於角色的功能,一同設計、測試、完善和實施數據質量業務規則,以達成最好的結果。
4、將數據質量規則構建到數據集成過程中
Informatica Data Quality支持普遍深入的數據質量控制,使用戶可以從擴展型企業中的任何位置跨任何數量的應用程序、在一個基於服務的架構中作為一項服務來執行業務規則。
數據質量服務由可集中管理、獨立於應用程序並可重復使用的業務規則構成,可用來執行探查、清洗、標准化、名稱與地址匹配以及監測。
5、檢查異常並完善規則
在執行數據質量流程後,大多數記錄將會被清洗和標准化,並達到企業所設定的數據質量目標。然而,無可避免,仍會存在一些沒有被清洗的劣質數據,此時則需要完善控制數據質量的業務規則。Informatica Data Quality可捕獲和突顯數據質量異常和異常值,以便更進一步的探查和分析。
5、對照目標,監測數據質量
數據質量控制不應為一次性的「邊設邊忘」活動。相對目標和在整個業務應用中持續監測和管理數據質量對於保持和改進高水平的數據質量性能而言是至關重要的。
Informatica Data Quality包括一個記分卡工具,而儀錶板和報告選項則具備更為廣泛的功能,可進行動態報告以及以更具可視化的方式呈現。
7. 信息採集的原則
1、可靠性原則:信息必須是真實對象或環境所產生的,必須保證信息來源是可靠的,必須保證採集的信息能反映真實的狀況。
2、完整性原則:信息採集必須按照一定的標准要求,採集反映事物全貌的信息,完整性原則是信息利用的基礎。
3、實時性原則:信息自發生到被採集的時間間隔,間隔越短就越及時,最快的是信息採集與信息發生同步。
4、准確性原則:採集到信息的表達是無誤的,是屬於採集目的范疇之內的,相對於企業或組織自身來說具有適用性,是有價值的。
5、計劃性原則:採集的信息既要滿足當前需要,又要照顧未來的發展;既要廣辟信息來源,又要持之以恆。
6、預見性原則:信息採集人員要掌握社會、經濟和科學技術的發展動態,要隨時了解未來,採集那些對將來發展有指導作用的預測性信息。
(7)統計數據採集的質量要求包括哪些擴展閱讀
信息採集的渠道:
1、傳統信息系統。傳統信息系統採集的信息往往具有較高的價值,一方面原因是傳統信息系統採集的往往是結構化數據,易於統計和分析,另一方面原因是傳統信息系統採集的數據往往是比較重要的數據。
2、Web平台。信息來源的另一個重要渠道是各種Web平台,隨著Web應用的普及,尤其是Web2.0的普及應用之後,整個Web系統產生了大量的數據,這些數據也是大數據系統的重要數據來源之一。
3、物聯網系統。物聯網與大數據的關系非常緊密,與傳統信息系統和Web系統不同,物聯網的數據大部分都是非結構化數據和半結構化數據,要想對其進行分析需要採用特定的處理方式,比較常見的處理方式包括批處理和流處理。
參考資料來源:網路-信息採集