導航:首頁 > 數據處理 > 如何用標准化數據篩選

如何用標准化數據篩選

發布時間:2024-03-04 00:59:09

Ⅰ 幾種常用數據標准化方法

評價是現代社會各領域的一項經常性的工作,是科學做出管理決策的重要依據。隨著人們研究領域的不斷擴大,所面臨的評價對象日趨復雜,如果僅依據單一指標對事物進行評價往往不盡合理,必須全面地從整體的角度考慮問題,多指標綜合評價方法應運而生。所謂多指標綜合評價方法,就是把描述評價對象不同方面的多個指標的信息綜合起來,並得到一個綜合指標,由此對評價對象做一個整體上的評判,並進行橫向或縱向比較。

而在 多指標評價體系中,由於各評價指標的性質不同,通常具有不同的量綱和數量級。當各指標間的水平相差很大時,如果直接用原始指標值進行分析,就會突出數值較高的指標在綜合分析中的作用,相對削弱數值水平較低指標的作用。 因此,為了保證結果的可靠性,需要對原始指標數據進行標准化處理。

目前數據標准化方法有多種,歸結起來可以分為直線型方法(如極值法、標准差法)、折線型方法(如三折線法)、曲線型方法(如半正態性分布)。不同的標准化方法,對系統的評價結果會產生不同的影響,然而不幸的是, 在數據標准化方法的選擇上,還沒有通用的法則可以遵循。

數據的標准化(normalization)是將數據按比例縮放,使之落入一個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除數據的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是數據的歸一化處理,即將數據統一映射到[0,1]區間上,常見的數據歸一化的方法有:min-max標准化(Min-max normalization),log函數轉換,atan函數轉換,z-score標准化(zero-mena normalization,此方法最為常用),模糊量化法。本文只介紹min-max法(規范化方法),z-score法(正規化方法),比例法(名字叫啥不太清楚,歸一化方法)。

也叫離差標准化,是對原始數據的線性變換,使結果落到[0,1]區間,轉換函數如下:

通過以10為底的log函數轉換的方法同樣可以實現歸一下,具體方法看了下網上很多介紹都是 x =log10(x) ,其實是有問題的,這個結果並非一定落到[0,1]區間上, 應該還要除以log10(max) *,max為樣本數據最大值,並且所有的數據都要大於等於1。

用反正切函數也可以實現數據的歸一化,使用這個方法需要注意的是如果想映射的區間為[0,1],則 數據都應該大於等於0,小於0的數據將被映射到[-1,0]區間上。

而並非所有數據標准化的結果都映射到[0,1]區間上,其中最常見的標准化方法就是Z標准化;也是SPSS中最為常用的標准化方法,也叫 標准差標准化

Ⅱ 如何在excel中數據標准化處理

在EXCEL中沒有現成的函數,需要自己分步計算。
步驟如下:
1.:求出各變數(指標)的算術平均值(數學期望)xi和標准差si ;
2:進行標准化處理:
zij=(xij-xi)/si
其中:zij為標准化後的變數值;xij為實際變數值。
3.:將逆指標前的正負號對調。
標准化後的變數值圍繞0上下波動,大於0說明高於平均水平,小於0說明低於平均水平。
另外這個標准化在SPSS中很容易實現

Ⅲ Excel中的篩選,如何把一個月的數據一起篩選出來

1、打開excel表格,該表格一共有300多行,手動一個個去篩出想要的數據效率很低。使用excel自帶的篩選功能才是正確的方法。用滑鼠選中第一行中的標題,點擊工具欄中的【數據】-【篩選】。

Ⅳ 數據標准化方法:該如何選擇

原文鏈接:

數據標准化方法:該如何選擇?

什麼是數據標准化?

在微生物組學數據分析之前,我們常常需要根據數據量綱的不同以及分析方法的需要對數據進行各種預處理,也即數據標准化。 數據標准化的目的是使數據的總體符合某種要求,例如使數據總體符合正態分布以方便參數檢驗、使數據范圍相同以方便比較分析、使數據分布均勻以方便作圖展示等 。我們必須知道不同標准化方法的內涵,從而在實際研究中可以選擇正確的數據標准化方法。

首先我們介紹一下數據轉換。簡單數據轉換也即對整體數據進行簡單運算,數據轉換的目的主要有三個,一是改變數據結構,例如 非線性通過平方根、對數轉換為線性 ;二是改變數據范圍,便於比較和作圖分析,例如數據變化特別大的可以進行對數轉換來縮小屬性范圍;三是改變數據分布,使得樣本偏離標准分布太遠的更加接近標准分布(例如正態分布)。常見的數據轉換有以下幾種:

對數轉換 :將數據(樣本觀察值)取自然對數(或者其他數為底的對數),可以使用log()函數來實現(log1p()可以將數據加1後取自然對數)。若是數據中有0或負值,可以全部數據加上一個數轉換為正數。一般來說自然對數轉換可以使0~1范圍內的數據范圍變大,可以使>1范圍內數據范圍變緊湊。

平方根轉換 :將數據全部取平方根,可以使用sqrt(x)或者x^0.5來實現。類似的還有立方根轉換、四次方根轉換,偶數次方根要求數據非負。如果數據結構為二次關系,平方根轉換後平方根轉換可以使數據范圍變小。

倒數轉換 :將數據全部取倒數,也即1/x,倒數轉換使0~1范圍內的數據范圍變大,使>1范圍內數據范圍變緊湊,而且轉換後數據為倒序。

數據轉換僅僅是對數據中每個觀察值的獨立處理,而標准化則涉及到數值之間的處理。下面我們以生態學常用的vegan包中的decostand()函數為例,分析不同標准化方法的差別,此函數使用方法如下:

decostand(x, method, MARGIN, range.global, logbase = 2, na.rm=FALSE, ...)

其中x為向量或矩陣,method為標准化方法,MARGIN=1按行處理,MARGIN=2按列處理,不同標准化方法介紹如下:

①method="pa",將數據轉換為有-無(1-0)類型,若分析不加權的情況群結構下可以使用;

②method="max",最大值標准化,將數據除以該行或者列的最大值(defaultMARGIN=2)。若數據非負,最大值標准化後數據全部位於0到1之間。

③method="total",總和標准化,將數據除以該行或者列的總和,也即求相對豐度(default MARGIN=1),總和標准化後數據全部位於0到1之間。

④method="range",Min-max標准化,將數據減去該行或者列的最小值,並比上最大值與最小值之差(defaultMARGIN=2),Min-max標准化後的數據全部位於0到1之間。

⑤method="normalize",模標准化,將數據除以每行或者每列的平方和的平方根(default MARGIN=1),模標准化後每行、列的平方和為1(向量的模為1),也即在笛卡爾坐標系中到原點的歐氏距離為1,樣品分布在一個圓弧上,彼此之間的距離為弦長,因此也稱為弦轉化。 在基於歐氏距離的 PCA 、 RDA 中分析群落數據可以將每個樣方弦轉化可以彌補歐氏距離的缺陷 。弦轉化後的數據使用歐氏距離函數計算將得到 弦距離矩陣 。

⑥method="hellinger",hellinger轉化,就是總和標准化數據的平方根(default MARGIN=1),hellinger轉化後的數據使用歐氏距離函數計算將得到 hellinger 距離矩陣 。

⑦method="chi.square",卡方轉化,在默認(defaultMARGIN=1)的情況下是數據除以行的和再除以列的和的平方根,卡方轉化後的數據使用歐氏距離函數計算將得到 卡方距離矩陣 。

⑧Wisconsin轉化,這個是使用伴隨的函數wisconsin(),將數據除以該列最大值再除以該行總和,是最大值標准化和總和標准化的結合。

⑨method="standardize",z-score標准化,最常用的標准化方法之一,將數據減去均值比上標准差(default MARGIN=2),z-score標准化後數據均值為0,方差為1,服從正態總體的數據標准化後服從標准正態分布。z-score標准化可以去除不同環境因子量綱的影響。

一般情況下,上面方法中默認MARGIN=1是默認對樣品進行處理,默認MARGIN=2是默認對物種或者環境變數進行處理。

為了比較不同標准化方法對群落數據的影響,我們使用只有兩個物種的虛擬群落進行處理,然後在笛卡爾坐標系進行展示(彼此之間是歐氏距離):

#假設虛擬數據:2個物種在5個樣方的分布

spe1=c(0.1,0.2,0.3,0.4,0.5)

spe2=c(0.6,0.7,0.8,0.9,1)

ab=cbind(spe1,spe2)

rownames(ab)=LETTERS[1:5]

#各種標准化

ab1=decostand(ab, MARGIN=1, "total")

ab2=decostand(ab, MARGIN=1, "normalize")

ab3=decostand(ab, MARGIN=1, "hellinger")

ab4=decostand(ab, MARGIN=1, "chi.square")

ab5=wisconsin(ab)

#作圖觀察不同標准化方法距離差異

par(mfrow=c(2,3))

plot(ab[,1], ab[,2], xlim=0:1, ylim=0:1, main="Rawdata")

text(ab[,1], ab[,2]-0.05, labels=rownames(ab), cex=1.2)

plot(ab1[,1], ab1[,2], xlim=0:1, ylim=0:1, main="Total")

text(ab1[,1], ab1[,2]-0.05, labels=rownames(ab), cex=1.2)

plot(ab2[,1], ab2[,2], xlim=0:1, ylim=0:1,main="Normalize")

text(ab2[,1], ab2[,2]-0.05, labels=rownames(ab), cex=1.2)

plot(ab3[,1], ab3[,2], xlim=0:1, ylim=0:1,main="Hellinger")

text(ab3[,1], ab3[,2]-0.05, labels=rownames(ab), cex=1.2)

plot(ab4[,1], ab4[,2], xlim=0:1, ylim=0:1,main="Chi.square")

text(ab4[,1], ab4[,2]-0.05, labels=rownames(ab), cex=1.2)

plot(ab5[,1], ab5[,2], xlim=0:1, ylim=0:1,main="Wisconsin")

text(ab5[,1], ab5[,2]-0.05, labels=rownames(ab), cex=1.2)

結果如下所示:

在沒有處理的情況下,群落之間的歐氏距離相等,然而在生態學方面我們不這么看,因為B中物種1的數量是A的兩倍,其群落差異顯然比D、E更大,五種處理方法標准化數據後的結果都比較好的證實了上面的猜想,尤其是最後兩種。 然而在微生物生態中,我們傾向於認為微生物群落是一個整體,不同樣品之間物種的相對豐度是有可比較的實際意義的,因此最常用的就是總和標准化 (當然在不涉及豐度比較的聚類和排序分析中各種標准化方法都可以嘗試,在傳統群落研究里,雖然經常使用中心化等方法,但是需要使用蓋度等對不同物種進行加權,因此直接進行總和標准化從某種意義上是使用相對豐度進行加權)。

對於物理、化學變數而言,則完全不同,因為環境變數的值具有絕對性,例如溫度1-2℃和21-22℃其差異是一樣的。環境變數由於量綱不同, 在計算距離矩陣(歐氏距離)、根據特徵根提取的主成分分析、比較系數的回歸分析之前,均需要進行 z-score標准化。

Ⅳ 在EXCEL里怎麼將數據標准化

在EXCEL中消除量綱,沒有現成的函數,要組合作用。



1、求出各變數(指標)的算術平均值(數學期望)xi和標准差si 。




(5)如何用標准化數據篩選擴展閱讀




1、從輸入調整字體開始,在工具欄「開始」菜單模塊,可以發現調整字體的工具框,在此我們可以快速更改字體類型、大小、顏色等等。


2、在打好字或者打字之前,需要按照一定格式來調整字體的對齊方式,在對齊方式工具欄中,可以快速更改字體對齊方式。


3、如果想要輸入一些數據製作消費情況統計表的話,那麼就要輸入「¥」這個符號了,一次次輸入太麻煩了,直接在數字框那裡。


4、插入和刪除單元格,在單元格工具框中,我們可以快速一鍵插入或刪除單元格。


5、常用函數一鍵搞定,直接在工具里尋找。


6、想要直接知道某幾個數的和或者平均值,那麼直接選中那幾個數就可以知道了。


7、格式刷的使用很簡單,只要點擊一下格式刷,然後在選擇要復制的格式,最後就是選擇要修改的個單元格了,可以批量修改 。


8、Excel表格中,只要一鍵就能製表。選中一些數據,然後在上方工具欄中選擇「插入」,再打開「圖表」。


資料來源:網路-excel

閱讀全文

與如何用標准化數據篩選相關的資料

熱點內容
調取對方身份信息需要多久 瀏覽:692
怎麼查西數硬碟是哪個代理的 瀏覽:93
聚羧酸減水劑技術員主要干什麼 瀏覽:939
玩游戲沒有及時回女生信息怎麼辦 瀏覽:356
反饋信息來源怎麼寫 瀏覽:325
怎麼讓程序運行手機黑屏 瀏覽:683
沈陽市古董市場在哪裡 瀏覽:48
濰柴應用技術支持是什麼 瀏覽:256
港股一天最多交易多少次 瀏覽:248
茵茵怎麼做代理 瀏覽:424
粵康碼場所申報碼數據如何查看 瀏覽:744
如何加強數據開放 瀏覽:248
全球稅務信息透明後會怎麼樣 瀏覽:157
包頭輕工職業技術學院多少分進 瀏覽:219
今年雙十一交易額在多少 瀏覽:422
市場營銷中介包括哪些 瀏覽:838
為什麼英德農產品賣得那麼火 瀏覽:853
在哪些平台如何才能進行外匯交易 瀏覽:618
歷史價格數據怎麼存儲比較好 瀏覽:382
如何決定一個交易者的行為 瀏覽:318