導航:首頁 > 數據處理 > 數據規約能做什麼

數據規約能做什麼

發布時間:2023-01-03 12:46:25

Ⅰ 預處理是什麼 包括哪兩種方法

資料庫基礎分析為什麼要進行預處理數據 收藏
做數據預處理很重要,但是如何做好數據預處理似乎是件更困難的事。。。。。

-----------------------------------------------------------------------------------------------------------------------

當今現實世界的資料庫極易受雜訊、丟失數據和不一致數據的侵擾,因為資料庫太大(常常多達數千兆位元組,甚至更多),並且多半來自多個異構數據源。低質量的數據將導致低質量的挖掘結果。「如何預處理數據提高數據質量,從而提高挖掘結果的質量?如何預處理數據,使得挖掘過程更加有效、更加容易?」

有大量數據預處理技術。數據清理可以用來去掉數據中的雜訊,糾正不一致。數據集成將數據由多個源合並成一致的數據存儲,如數據倉庫。也可以使用數據變換,如規范化。例如,規范化可以提高涉及距離度量的挖掘演算法的准確率和有效性。數據歸約可以通過聚集、刪除冗餘特徵或聚類等方法來減小數據規模。這些技術不是互斥的,可以一起使用。例如,數據清理可能涉及糾正錯誤數據的變換,如將日期欄位變換成共同的格式。這些數據處理技術在挖掘之前使用,可以顯著地提高挖掘模式的總體質量和/或減少實際挖掘所需要的時間。

介紹數據預處理的基本概念,介紹作為數據預處理基礎的描述性數據匯總。描述性數據匯總幫助我們研究數據的一般特徵、識別雜訊或離群點,對成功的數據清理和數據集成很有用。數據預處理的方法組織如下:數據清理、數據集成與變換和數據歸約。概念分層可以用作數據歸約的一種替換形式,其中低層數據(如年齡的原始值)用高層概念(如青年、中年或老年)替換。這種形式的數據歸約,在那裡我們討論使用數據離散化技術,由數值數據自動地產生概念分層。

為什麼要預處理數據

想像你是AllElectronics的經理,負責分析涉及你部門的公司銷售數據。你立即著手進行這項工作,仔細地審查公司的資料庫和數據倉庫,識別並選擇應當包含在分析中的屬性或維,如item, price和units_sold。啊!你注意到許多元組在一些屬性上沒有值。為了進行分析,希望知道每種購進的商品是否作了銷售廣告,但是發現這些信息沒有記錄下來。此外,你的資料庫系統用戶已經報告某些事務記錄中的一些錯誤、不尋常的值和不一致性。換言之,你希望

使用數據挖掘技術分析的數據是不完整的(缺少屬性值或某些感興趣的屬性,或僅包含聚集數據),含雜訊的(包含錯誤或存在偏離期望的離群值),並且是不一致的(例如,用於商品分類的部門編碼存在差異)。歡迎來到現實世界!

存在不完整的、含雜訊的和不一致的數據是現實世界大型的資料庫或數據倉庫的共同特點。不完整數據的出現可能有多種原因。有些感興趣的屬性,如銷售事務數據中顧客的信息,並非總是可用的。其他數據沒有包含在內只是因為輸入時認為是不重要的。相關數據沒有記錄可能是由於理解錯誤,或者因為設備故障。與其他記錄不一致的數據可能已經刪除。此外,記錄歷史或修改的數據可能被忽略。缺失的數據,特別是某些屬性上缺少值的元組可能需要推導出來。

數據含雜訊(具有不正確的屬性值)可能有多種原因。收集數據的設備可能出故障;人或計算機的錯誤可能在數據輸入時出現;數據傳輸中的錯誤也可能出現。這些可能是由於技術的限制,如用於數據傳輸同步的緩沖區大小的限制。不正確的數據也可能是由命名約定或所用的數據代碼不一致,或輸入欄位(如日期)的格式不一致而導致的。重復元組也需要數據清理。

數據清理常式通過填寫缺失的值、光滑雜訊數據、識別或刪除離群點並解決不一致性來「清理」數據。如果用戶認為數據是臟的,則他們不會相信這些數據的挖掘結果。此外,臟數據造成挖掘過程陷入混亂,導致不可靠的輸出。盡管大部分挖掘常式都有一些過程處理不完整或雜訊數據,但它們並非總是魯棒的。相反,它們著重於避免建模函數過分擬合數據。因此,一個有用的預處理步驟是使用一些清理常式處理數據。2.3節討論清理數據的方法。回到你在AllElectronics的任務,假定在分析中包含來自多個數據源的數據。這涉及集成48 多個資料庫、數據立方體或文件,即數據集成。代表同一概念的屬性在不同的資料庫中可能有不同的名字,這將導致不一致性和冗餘。例如,顧客標識屬性在一個資料庫中可能是customer_id,而在另一個中為cust_id。命名的不一致還可能出現在屬性值中。例如,同一個人的名字可能在一個資料庫中登記為「Bill」,在第二個資料庫中登記為「William」,而在第三個資料庫中登記為「B」。此外,你可能會覺察到,有些屬性可能是由其他屬性(例如年收入)導出的。含大量冗餘數據可能降低知識發現過程的性能或使之陷入混亂。顯然,除數據清理之外,在數據集成時必須採取步驟,避免數據冗餘。通常,在為數據倉庫准備數據時,數據清理和集成將作為預處理步驟進行。還可以再次進行數據清理,檢測和刪去可能由集成導致的冗餘。

回到你的數據,假設你決定要使用諸如神經網路、最近鄰分類法或聚類這樣的基於距離的挖掘演算法進行分析。如果待分析的數據已經規范化,即按比例映射到一個特定的區間[0.0,1.0],這些方法能得到更好的結果。例如,你的顧客數據包含年齡和年薪屬性。年薪屬性的取值范圍可能比年齡大得多。這樣,如果屬性未規范化,距離度量對年薪所取的權重一般要超過距離度量對年齡所取的權重。此外,分析得到每個客戶區域的銷售額這樣的聚集信息可能是有用的。這種信息不在你的數據倉庫的任何預計算的數據立方體中。你很快意識到,數據變換操作,如規范化和聚集,是導向挖掘過程成功的預處理過程。

隨著你進一步考慮數據,你想知道「我選擇用於分析的數據集太大了,肯定降低挖掘過程的速度。有沒有辦法壓縮我的數據集而又不損害數據挖掘的結果?」數據歸約得到數據集的簡化表示,它小得多,但能夠產生同樣的(或幾乎同樣的)分析結果。有許多數據歸約策略,包括數據聚集(例如建立數據立方體)、屬性子集選擇(例如通過相關分析去掉不相關的屬性)、維度歸約(例如使用諸如最小長度編碼或小波等編碼方案)和數值歸約(例如使用聚類或參數模型等較小的表示「替換」數據)。使用概念分層泛化也可以「歸約」數據。泛化用較高層的概念替換較低層的概念,例如,對於顧客位置,用region或49 province_or_state替換city。概念分層將概念組織在不同的抽象層。數據離散化是一種數據歸約形式,對於從數值數據自動地產生概念分層是非常有用的。

下圖總結了這里討論的數據預處理步驟。注意,上面的分類不是互斥的。例如,冗餘數據的刪除既是一種數據清理形式,也是一種數據歸約。

概言之,現實世界的數據一般是臟的、不完整的和不一致的。數據預處理技術可以改進神經網路和最近鄰分類法在第6章介紹,聚類在第7章討論。

數據的質量,從而有助於提高其後的挖掘過程的精度和性能。由於高質量的決策必然依賴於高質量的數據,因此數據預處理是知識發現過程的重要步驟。檢測數據異常、盡早地調整數據並歸約待分析的數據,將在決策過程得到高回報。

大數據預處理包含哪些

一、數據清理


並不一定的數據全是有使用價值的,一些數據並不是大家所關注的內容,一些乃至是徹底不正確的影響項。因而要對數據過濾、去噪,進而獲取出合理的數據。


數據清理關鍵包括忽略值解決(缺乏很感興趣的屬性)、雜訊數據解決(數據中存有著不正確、或偏移期待值的數據)、不一致數據解決。


忽略數據能用全局性變數定義、屬性平均值、將會值填充或是立即忽視該數據等方式;雜訊數據能用分箱 (對初始數據開展排序,隨後對每一組內的數據開展平滑處理)、聚類演算法、電子計算機人工服務定期檢查重歸等方式 除去雜訊。


二、數據集成與轉換


數據集成就是指把好幾個數據源中的數據融合並儲存到一個一致的資料庫文件。這一全過程中必須主要處理三個難題:模式匹配、數據冗餘、數據值沖突檢測與解決。


因為來源於好幾個數據結合的數據在取名上存有差別,因而等額的的實體線常具備不一樣的名字。數據集成中最後一個關鍵難題就是數據值矛盾難題,具體表現為來源於不一樣的統一實體線具備不一樣的數據值。


三、數據規約


數據規約關鍵包含:數據方集聚、維規約、數據縮小、標值規約和定義層次等。


倘若依據業務流程要求,從資料庫房中獲得了剖析所必須的數據,這一數據集將會十分巨大,而在大量數據上開展數據剖析和數據發掘的成本費又非常高。應用數據規約技術性則能夠 完成數據集的規約表明,促使數據集縮小的另外依然趨於維持原數據的一致性。在規約後的數據集在開展發掘,仍然可以獲得與應用原數據集幾近同樣的剖析結果。


關於大數據預處理包含哪些,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。

Ⅲ 【數據分析】-006-數據預處理-數據規約

在大數據集上進行復雜的數據分析和挖掘需要很長的時間,數據規約產生更小但保持原 數
據完整性的新數據集。在規約後的數據集上進行分析和挖掘將更有效率。

屬性規約通過屬性合並來創建新屬性維數,或者直接通過刪除不相關的屬性(維)來減少數據維數,從而提高數據挖掘的效率、降低計算成本。屬性規約的目標是尋找出最小的屬性子集並確保新數據子集的概率分布盡可能地接近原來數據集的概率分布。

逐步向前選擇、逐步向後刪除和決策樹歸納是屬於直接刪除不相關屬性(維)方法。主成分分析是一種用於連續屬性的數據降維方法,它構造了原始數據的一個正交變換,新空間的基底去除了原始空間基底下數據的相關性,只需使用少數新變數就能夠解釋原始數據中的大部分變異。在應用中,通常是選出比原始變數個數少,能解釋大部分數據中的變數的幾個新變數,即所謂主成分,來代替原始變數進行建模。

1)設原始變數 的 n 次觀測數據矩陣為:

2)將數據矩陣按列進行中心標准化。為了方便,將標准化後的數據矩陣仍然記為X。
3)求相關系數矩陣 的定義為:

其中,
4)求&的特徵方程 的特徵根 。
5)確定主成分個數 根據實際問題確定,一般取80%。
6)計算m個相應單位特徵向量:

7)計算主成分:

在 Python 中,主成分分析的函數位於 Scikit-Leam 下:
sklearn.decomposition.PCA(n_components = None, = True, whiten = False)
參數說明:

原始數據從8維被降維到了3維,關系式由公式確定,同時這3維數據佔了原始數據95%以上的信息。

數值規約指通過選擇替代的、較小的數據來減少數據量,包括有參數方法和無參數方法兩類。
有參數方法是使用一個模型來評估數據,只需存放參數,而不需要存放實際數據,例如回歸(線
性回歸和多元回歸)和對數線性模型(近似離散屬性集中的多維概率分布)。無參數方法就需要
存放實際數據,例如直方圖、聚類、抽樣(采樣)。

用於數據規約時,抽樣最常用來估計聚集査詢的結果。在指定的誤差范圍內,可以確定 (使用中心極限定理)估計一個給定的函數所需的樣本大小。通常樣本的大小 s 相對於 N 非常 小。而通過簡單地增加樣本大小,這樣的集合可以進一步求精。

Ⅳ 在數據清洗過程中主要進行怎樣哪兩類處理

輸入數據後需要對數據進行預處理,只有處理得當的數據才能進到數據挖掘的步驟。而處理數據包括對數據數量和質量的處理。我按照少—多—亂來整理。

1 對缺失的數據有添補或刪除相關行列方法,具體步驟自己判斷(如果數據量本來就很少還堅持刪除不就作死了是吧)
★添補:常用拉格朗日插值或牛頓插值法,也蠻好理解,屬於數理基礎知識。(pandas庫里自帶拉格朗日插值函數,而且這個好處是還可以在插值前對數據進行異常值檢測,如果異常那麼該數據就也被視為需要進行插值的對象)
★刪除:這個也好理解,就是對結果分析沒有直接影響的數據刪刪刪愛少少不去管。

2 異常值
這個是否剔除需要視情況而定
★像問題1中視為缺失值重新插值
★刪除含有異常值的記錄(可能會造成樣本量不足,改變原有分布)
★平均值修正(用前後兩個觀測值平均值)
綜上,還是方案一靠譜。
人生苦短,學好python

3 數據量太多,有三種方法:集成,規約,變換
(1)數據是分散的時,這個就是指要從多個分散的數據倉庫中抽取數據,此時可能會造成冗餘的情況。此時要做的是【數據集成】。
數據集成有兩方面內容:
①冗餘屬性識別②矛盾實體識別
屬性:
對於冗餘屬性個人理解是具有相關性的屬性分別從不同的倉庫中被調出整合到新表中,而新表中由於屬性太多造成冗餘,這時可以靠相關性分析來分析屬性a和屬性b的相關系數,來度量一個屬性在多大程度上蘊含另一個屬性。(這個用python的pandas庫里corr()函數也可以實現),檢測出了再將其刪除。
實體:(這個是要靠自己甄別源表,所以源倉庫里的實體含義要清楚)
a,同名異義——改名字
b,異名同義——刪一個
c,單位不統一—換

(2)數據規約
又包括兩方面
屬性規約和數量規約
①屬性規約:就是減少屬性個數或合並舊屬性成一個新屬性,可以特徵子集選擇(刪除不需要作挖掘的屬性),主成分分析(通過對方差的決定性大小分析並降維),決策樹歸納,向前/向後刪除。
具體的如果不了解可以找個實例試一下。

②數量規約:通過選擇替代的,較小的數據來減少數據量,包括有參數和無參數。
有參數:建模,並且只需存放模型的參數,例如一些回歸模型,用參數來評估數據。
無參數:需要存放實際數據,用圖表存放並顯示數據,例如用直方圖時可把步長設置一定的區間,來衡量區間內的頻數,也起到了規約的目的。還有一些聚類(用簇來替換實際數據)。還有抽樣(聚類抽樣,分層抽樣)

Ⅳ 數據挖掘的數據處理

數據挖掘的數據處理
從數據本身來考慮,數據挖掘通常需要有信息收集、數據集成、數據規約、數據清理、數據變換、數據挖掘實施過程、模式評估和知識表示8個步驟。
步驟(1)信息收集:根據確定的數據分析對象,抽象出在數據分析中所需要的特徵信息,然後選擇合適的信息收集方法,將收集到的信息存入資料庫。對於海量數據,選擇一個合適的數據存儲和管理的數據倉庫是至關重要的。
步驟(2)數據集成:把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為企業提供全面的數據共享。
步驟(3)數據規約:如果執行多數的數據挖掘演算法,即使是在少量數據上也需要很長的時間,而做商業運營數據挖掘時數據量往往非常大。數據規約技術可以用來得到數據集的規約表示,它小得多,但仍然接近於保持原數據的完整性,並且規約後執行數據挖掘結果與規約前執行結果相同或幾乎相同。
步驟(4)數據清理:在資料庫中的數據有一些是不完整的(有些感興趣的屬性缺少屬性值)、含雜訊的(包含錯誤的屬性值),並且是不一致的(同樣的信息不同的表示方式),因此需要進行數據清理,將完整、正確、一致的數據信息存入數據倉庫中。不然,挖掘的結果會差強人意。
步驟(5)數據變換:通過平滑聚集、數據概化、規范化等方式將數據轉換成適用於數據挖掘的形式。對於有些實數型數據,通過概念分層和數據的離散化來轉換數據也是重要的一步。
步驟(6)數據挖掘過程:根據數據倉庫中的數據信息,選擇合適的分析工具,應用統計方法、事例推理、決策樹、規則推理、模糊集,甚至神經網路、遺傳演算法的方法處理信息,得出有用的分析信息。
步驟(7)模式評估:從商業角度,由行業專家來驗證數據挖掘結果的正確性。
步驟(8)知識表示:將數據挖掘所得到的分析信息以可視化的方式呈現給用戶,或作為新的知識存放在知識庫中,供其他應用程序使用。
數據挖掘過程是一個反復循環的過程,每一個步驟如果沒有達到預期目標,都需要回到前面的步驟,重新調整並執行。不是每件數據挖掘的工作都需要這里列出的每一步,例如在某個工作中不存在多個數據源的時候,步驟(2)便可以省略。
步驟(3)數據規約、步驟(4)數據清理、步驟(5)數據變換又合稱數據預處理。在數據挖掘中,至少60%的費用可能要花在步驟(1)信息收集階段,而其中至少60%以上的精力和時間花在了數據預處理過程中。

Ⅵ 簡述什麼是數據歸約

數據歸約是指在對挖掘任務和數據本身內容理解的基礎上、尋找依賴於發現目標的數據的有用特徵,以縮減數據規模,從而在盡可能保持數據原貌的前提下,最大限度地精簡數據量。

Ⅶ 大數據預處理的方法有哪些

1、數據清理


數據清理常式就是通過填寫缺失值、光滑雜訊數據、識別或者刪除離群點,並且解決不一致性來進行“清理數據”。


2、數據集成


數據集成過程將來自多個數據源的數據集成到一起。


3、數據規約


數據規約是為了得到數據集的簡化表示。數據規約包括維規約和數值規約。


4、數據變換


通過變換使用規范化、數據離散化和概念分層等方法,使得數據的挖掘可以在多個抽象層面上進行。數據變換操作是提升數據挖掘效果的附加預處理過程。

Ⅷ 大學的哪個專業是研究數據挖掘的

研究數據挖掘的大學專業一般是人工智慧專業,或者也可以叫作應用數學,然後研究大數據方向,總之和數學、人工智慧分不開,下面將開始介紹。

所以,想學數據挖掘,就選數學專業。

Ⅸ 什麼不屬於大數據預處理技術

管理和調用數據不屬於大數據預處理技術
大數據預處理技術主要是指完成對已接收數據的辨析、抽取、清洗、填補、平滑、合並、規格化及檢查一致性等操作。

因獲取的數據可能具有多種結構和類型,數據抽取的主要目的是將這些復雜的數據轉化為單一的或者便於處理的結構,以達到快速分析處理的目的。

大數據預處理技術包含什麼?

通常數據預處理包含 3 個部分:數據清理、數據集成和變換及數據規約。

1.數據清理

數據清理主要包含遺漏值處理(缺少感興趣的屬性)、噪音數據處理(數據中存在錯誤或偏離期望值的數據)和不一致數據處理。

· 遺漏數據可用全局常量、屬性均值、可能值填充或者直接忽略該數據等方法處理。

· 噪音數據可用分箱(對原始數據進行分組,然後對每一組內的數據進行平滑處理)、聚類、計算機人工檢查和回歸等方法去除噪音。

· 對於不一致數據則可進行手動更正。

2.數據集成

數據集成是指把多個數據源中的數據整合並存儲到一個一致的資料庫中。

這一過程中需要著重解決 3 個問題:模式匹配、數據冗餘、數據值沖突檢測與處理。

由於來自多個數據集合的數據在命名上存在差異,因此等價的實體常具有不同的名稱。對來自多個實體的不同數據進行匹配是處理數據集成的首要問題。

數據冗餘可能來源於數據屬性命名的不一致,可以利用皮爾遜積矩來衡量數值屬性,對於離散數據可以利用卡方檢驗來檢測兩個屬性之間的關聯。

數據值沖突問題主要表現為,來源不同的統一實體具有不同的數據值。數據變換的主要過程有平滑、聚集、數據泛化、規范化及屬性構造等。

數據規約主要包括數據方聚集、維規約、數據壓縮、數值規約和概念分層等。

使用數據規約技術可以實現數據集的規約表示,使得數據集變小的同時仍然近於保持原數據的完整性。

在規約後的數據集上進行挖掘,依然能夠得到與使用原數據集時近乎相同的分析結果。

上述就是關於大數據預處理技術是什麼,以及大數據預處理技術包含什麼的全部內容介紹,想了解更多關於大數據預處理技術的信息,請繼續關注中培教育

閱讀全文

與數據規約能做什麼相關的資料

熱點內容
微信如何注冊小程序進行調查問卷 瀏覽:635
南充網路技術哪個好 瀏覽:631
一個字有哪些數據類型 瀏覽:177
上市當天停牌什麼時候可以交易 瀏覽:739
怎麼數據載入失敗了 瀏覽:289
如何代理百度競價秒收 瀏覽:382
泉州萬祥物流是什麼產品 瀏覽:797
免費交易平台哪個好 瀏覽:40
機務技術員就業情況如何 瀏覽:391
山海經這游戲怎麼代理 瀏覽:929
眼部祛斑產品有哪些 瀏覽:832
合肥紅酒代理商有哪些 瀏覽:847
湖人交易動向如何 瀏覽:16
程序員熬夜加班到多少點 瀏覽:419
新上一個功能需採集哪些數據 瀏覽:702
招聘基礎信息怎麼填 瀏覽:981
劉總現在在哪個市場 瀏覽:429
公交車驅動程序怎麼取名 瀏覽:268
被抽樣調查的原始數據叫什麼 瀏覽:868
人保代駕如何使用代理 瀏覽:667