導航:首頁 > 數據處理 > 標准差太大如何修正數據

標准差太大如何修正數據

發布時間:2023-03-30 09:54:40

Ⅰ 如何將大批量數據進行標准差標准化

現在因參加夏令營數學建模,我用主成分分析法,在Mathematica
7.0很輕松地將大量數據標准化,數據進行標准差標准化的公式你應該知道吧,可以在網上查到,自己在Mathematica
7.0編制簡單的代碼就好了
數據分析之前,我們通常需要先將數據鍵銀標准化(normalization),利用標准化後的數據進行數據分析。數據標准化也就是統計數據的指數化。數據標准化處理主要包括數據同趨化處理和無量綱化處理兩個方面。數據同趨化處理主要解決不同性質數據問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆返檔指標數據性質,使所有指標對測評方案的作用力同趨化,再加總才能得出正確結果。數據無量綱化處理主要解決數據的可比性。數據標准化的方法有很多種,常用的有「最小—最大標准化」、「Z-score標准化」和「按小數定標標准化」等。經過上述標准化處理,原始數據均轉換為無量綱化指標測評值,即各指標值都處於同一個數量級別上,可以進行綜合測稿世宴評分析。

Ⅱ 當你測量產品時發現測量數據偏差太大時,你會怎樣處理

不好用,幾張圖片只是相似,卻認為是相同而分到一個組里。偏差有點太大了,根本不能用。

或許是版本問題,在網上找的 Vistanita Duplicate Finder3.9.6 漢化版 做的試驗。

2.Duplicate Cleaner

好用到飛起,查找侍兆速度比上一個快太多,中文版的界面也非常友好。

在網上找的猛虛 Duplicate Cleaner Pro 4.0.5中文破解版 做的試驗。

先寫到這兒吧,因為心中已經有了答案了。以後有需求再更新。老知租

Ⅲ 平均值一定,想將標准差降小,如何調整數值

所有數據都靠近平均值就好,越接近方差越小。

Ⅳ 怎樣用電腦調整一組數據的標准差

stdevp函數是對一組或多組數
你不會只針對一個單元格計算標准差吧?
比如stdevp(A1:A10)
就可以計算標准差了,不會提示輸入參數太少
stdevp與stdev的區別,請參考函數幫助:
STDEV
估算樣本的標准偏差。標准偏差反映相對於平均值
(mean)
的離散程度。
語法
STDEV(number1,number2,...)
Number1,number2,...
為對應於總體樣本的
1

30
個參數。也可以不使用這種用逗號分隔參數的形式伍悉,而用單個數組或對數組的引用。
說明
函數
STDEV
假設其參數是總體中的樣本。如果數據代表全部樣本總體,則應該使用函數
STDEVP
來計算標准偏差。
此處標准偏差的計算使用「無偏差」或「n-1」方法。
STDEVP
返回以參數形式給出的整個樣本總體的標准偏差。標准偏差反映相對於平均值
(mean)
的離散程度。
語法
STDEVP(number1,number2,...)
Number1,number2,...
為對應於樣本總體的
1

30
個參數。也可以不使用這種用逗號分隔參數的形式,而用單個數組或對數組的引用。
文本和邏輯值(TRUE

FALSE)將被忽略。如果不能忽略邏輯值和文本,則請使用
STDEVPA
工作表函數。
說明
函數
STDEVP
假設其參數為整個樣本總體。如果數據代表樣本總體中的樣本,應使用函數
STDEV
來計算標准偏差。
對於大樣本容量,函數
STDEV

STDEVP
計算結果大致相等。
此處標准偏差的納橘李計算使用「有偏差」和洞遲「n」方法。

Ⅳ 如何操作才能降低實驗結果的標准差

降低實驗的標虛塌准差主要是把握好實驗的目的和精度。要求合理的選擇實驗儀器鄭譽腔和實驗材料,比如需要測定物質含量屬於超微量的,自然要選擇含待測物越低喊衫的化學試劑為好,選擇優級的甚至是基準級的化學試劑,分析儀器也需要更高端,量器也需要更准確。實驗特別需要注意的是盡量減少偶然誤差,特別是人為誤差,比如讀數錯誤,數據錄入錯誤,人為誤差可以說是最有可能發生,也是對實驗結果影響最大的。所以,實驗一定要確認流程,識別可能造成人為誤差的危險因素,生物實驗特別要注意因人誤操作或疏忽造成污染。總之,要對整個實驗中可能會有誤差的地方做到心中有數,及時規避風險,也要建立風險應對機制,有條件的要隨時准備。標准差在概率統計中最常使用作為統計分布程度,還能反映一個數據集的離散程度。平均數相同的兩組數據,標准差未必相同。

Ⅵ 標准差比均數大怎麼回事

標准差比平均數大說明什麼?
標准差比平均數大,說明這數據離散性很大.肯定說明這數據變化范圍太大了.
這標准差比平均數還大,要算這變異系虛沒數都大於100%了.
一般看數據變化大小是看這變異系數.變異系數越大,說明差臘納這數據很離散.
能不能說明數據不好?
這數據是否為好?要看這數據一般正常情況下是多少.如果局團這數據本身就是具有很大離散性的,並且也在正常范圍內,則不能說其不好.如果超出了正常范圍,則說明其不好.

Ⅶ 如果變數中有許多零,回歸後標准差很大,如何處理好

首先r的范圍是(-1,1),應該是絕對值越接近1越線性相關,接近-1是負線性相關,接近1是線性相關

Ⅷ 標准差太大,需要處理數據嗎

方法一:規范化方法


也叫離差標准化,是對原始數據的線性變換,使結果映射到[0,1]區間。


方法二:正規化方法


這種方法基於原始數據的均值(mean)和標准差(standard deviation)進行數據的標准化。將A的原始值x使用z-score標准化到x』。

z-score標准化方法適用於屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況。

spss默認的標准化方法就是z-score標准化。

用Excel進行z-score標准化的方法:在Excel中沒有現成的函數,需要自己分步計算,其實標准化的公式很簡單。


步驟如下:

  1. 求出各敏罩變鍵拿運量(指標)的算稿梁術平均值(數學期望)xi和標准差si ;

  2. 2.進行標准化處理:

  3. zij=(xij-xi)/si

  4. 其中:zij為標准化後的變數值;xij為實際變數值。

  5. 3.將逆指標前的正負號對調。

  6. 標准化後的變數值圍繞0上下波動,大於0說明高於平均水平,小於0說明低於平均水平。

Ⅸ 請教:參數估計標准差太大,估計值不理想,如何處理

在貿易統計中, 對於限額以下批零餐飲企業普遍採用抽樣調查方法進行解決。然而,由於當前市場經濟情況的多樣性,經濟發展的不均衡性,以及地域寬廣性,導致情況多種多樣;實際情況的復雜,決定了方案的復雜性,增加了具體抽樣的難度。經過多年的探討,區域二相抽樣調查比較符合當前我國的實際情況,我們在這里根據試點所掌握的情況針對採用區域二相抽樣調查的貿易抽樣方案中如何確定樣本量進行分析。 一、樣本單位數量的確定原則 一般情況下,確定樣本量需要考慮調查的目的、性質和精度要求。以及實際操作的可行性、經費承受能力等。根據調查經驗,市場潛力和推斷等涉及量比較嚴格的調查需要的樣本量比較大,而一般廣告效果等人們差異不是很大或對樣本量要求不是很嚴格的調查,樣本量相對可以少一些。實際上確定樣本量大小是比較復雜的問題,即要有定性的考慮,也要有定量的考慮;從定性的方面考慮,決策的重要性、調研的性質、數據分析的性質、資源、抽樣方法等都決定樣本量的大小。但是這只能原則上確定樣本量大小。具體確定樣本量還需要從定量的角度考慮。 從定量的方面考慮,有具體的統計學公式,不同的抽樣方法有不同的公式。歸納起來,樣本量的大小主要取決於: (1)研究對象的變化程度,即變異程度; (2)要求和允許的誤差大小,即精度要求; (3)要求推斷的置信度,一般情況下,置信度取為95%; (4)總體的大小; (5)抽樣的方法。 也就是說,研究的問題越復雜,差異越大時,樣本量要求越大;要求的精度越高,可推斷性要求越高時,樣本量也越大;同時,總體越大,樣本量也相對要大,但是,增大呈現出一定對數特徵,而不是線形關系;而抽樣方法問題,決定設計效應的值,如果我們設定簡單隨機抽樣設計效應的值是1;分層抽樣由於抽樣效率高於簡單隨機抽樣,其設計效應的值小於1,合適恰當的分層,將使層內樣本差異變小,層內差異越小,設計效應小於1的幅度越大;多階抽樣由於效率低於簡單隨機抽樣,設計效應的值大於1,所以抽樣調查方法的復雜程度決定其樣本量大小。對於不同城態悄市,如果總體不知道或很大,需要進行推斷時,大城市多抽,小城市少抽,這種說法原則上是不對的。實際雹閉高上,在大城市抽樣太大是浪費,在小城市抽樣太少沒有推斷價值。 二、樣本量的確定方法 如何確定樣本量,基本方法很多,但是公式檢驗表明,當誤差和置信區間一定時,不同的樣本量計算公式計算出來的樣本量是十分相近的,所以,我們完全可以使用簡單隨機抽樣計算樣本量的公式去近似估計其他抽樣方法的樣本量,這樣可以更加快捷方便,然後將樣本量根據一定方法分配到各個子域中去。所以,區域二相抽樣不能計算樣本量的說法是不科學的。 1.簡單隨機抽樣確定樣本量主要有兩種類型: (1)對於平均數類型的變數 對於已知數據為絕對數,我們一般根據下列步驟來計算所需要的樣本量。已知期望調查結果的精度(E), 期望調查結果的置信度(L),以及總體的標准差估計值σ的具體數據,總體單位數N。 計算公式為:n=σ2/(e2/Z2+σ2/N) 特殊情況下,如果是很大總體,計算公式變為:n= Z2σ2/e2 例如希望平均收入的誤差在正負人民幣30元之間,調查結果在95%的置信范圍以內,其源尺95%的置信度要求Z的統計量為1.96。根據估計總體的標准差為150元,總體單位數為1000。 樣本量:n=150*150/(30*30/(1.96*1.96))+150*150/1000)=88 (2)於百分比類型的變數 對於已知數據為百分比,一般根據下列步驟計算樣本量。已知調查結果的精度值百分比(E),以及置信度(L),比例估計(P)的精度,即樣本變異程度,總體數為N。 則計算公式為:n=P(1-P)/(e2/Z2+ P(1-P)/N) 同樣,特殊情況下如果不考慮總體,公式為:n= Z2P(1-P)/e2 一般情況下,我們不知道P的取值,取其樣本變異程度最大時的值為0.5。 例如:希望平均收入的誤差在正負0.05之間,調查結果在95%的置信范圍以內,其95%的置信度要求Z的統計量為1.96,估計P為0.5,總體單位數為1000。樣本量為:n=0.5*0.5/(0.05*0.05/(1.96*1.96)+0.5*0.5/1000)=278 2.樣本量分配方法 以上分析我們獲得了採用簡單隨機抽樣公式計算得到的樣本量,總的樣本量需要在此基礎上乘以設計效應的值得到。由於樣本總量已經確定,我們採用總樣本量固定方法分配樣本,這種方法包括按照比例分配和不按照比例分配兩類。實際工作中首先計算取得區縣總的樣本量,然後逐級將其分配到各階分層中,如果不清楚各階分層的規模和方差等,一般採取比例分配或者比例平方根分配法。如果有一定輔助變數可以使用,可以採用按照規模分配法分配樣本量。 3.樣本量和總體大小的關系: 在其它條件一定的情況下,即誤差、置信度、抽樣比率一定,樣本量隨總體的大小而變化。但是,總體越大,其變化越不明顯;總體較小時,變化明顯。其變化趨勢如下: 二者之間的變化並非是線性關系。所以,樣本量並不是越大越好,應該綜合考慮,實際工作中只要達到要求就可以了。 三、貿易抽樣調查方案樣本量的確定 根據以上的分析,我們可以確定具體的樣本量。當前使用的貿易抽樣新方案採用多階分層區域二相抽樣方法、以零售額為核心指標抽取樣本。方案規定,縣區以下階分為鄉、鎮、街道層,鄉鎮街道一般根據繁華、非繁華分層,層內採用PPS抽樣完成對鄉鎮街道的抽取;鄉鎮街道以下階分為居委會、村委會、市場內層,居委會、村委會根據繁華、非繁華分層,層內採用簡單隨機抽樣完成對居委會村委會的抽取,市場內層抽樣根據方案完成;最後一階首先根據規模、類別分層,層內採用簡單隨機抽樣完成對居委會具體樣本的抽取。其中,確定居委會具體樣本的方法和數量比較模糊,需要基層做很多工作,給基層造成了一定的混亂,增加了很大的負擔。 我們決定首先採取簡單隨機抽樣的方法計算區縣的樣本量,之所以首先對區縣計算樣本量,主要是考慮,雖然我們方案中沒有要求對區縣的估計量,但是區縣一級是我們做計劃和決策的基礎,具有承上啟下的作用,如果區縣級獲得的估計量精度比較高,就可以保證上一級的估計量具有更高的精度,而且各個區縣的樣本量可以認為是相同的,這主要是因為各個區縣的總體數都比較多,而且我們也不清楚;同時也不可能事先進行區縣方差估計。沒有首先計算區縣以下各階分層的樣本量,主要是考慮: (1)如果計算區縣以下某階分層的樣本量,然後再將計算的樣本量合並,將顯著增加樣本量,增加基層的負擔。 (2)事實上,對於計算階可以比較好的得到它的估計量,但我們現在不需要得到區縣以下各階分層的估計量,我們僅僅需要區縣的估計量,沒有必要計算區縣以下階樣本量。 (3)我們直接對整個區縣以簡單隨機抽樣進行抽取,然後將其樣本量合理分配到各階分層中,這樣可以使用較少樣本量得到區縣較好的估計量。 以下我們以試點地區批零業為對象進行研究。由於沒有誤差限以及置信度和抽樣比率的值。我們可以採用常用參數:設定區縣總體為很大,置信度是95%,抽樣比率保守估計是0.5,抽樣誤差不能大於15%,根據公式計算得到樣本量為43個。由於採取多階分層抽樣,我們如何設定抽樣設計效應呢?區縣及以下是三階分層抽樣,只要在各階進行合適的分層,其設計效應應該在2-3之間,我們在這里取保守值3,那麼得到本區縣樣本量是129個,這個樣本量就可以根據新方案得到區縣要求誤差內的估計值。 1.確定辦事處、居委會、村委會樣本量 根據方案,每個居委會抽取樣本5-10個,那麼這個樣本量是否可行呢?這里涉及如何將區縣樣本分配到街道和居委會中去,根據方案要求,街道抽取採取先分層,後對層內進行PPS抽樣;那麼分配樣本是否也採取同樣方法呢?主要看輔助變數與樣本量之間的關聯程度,方案中提供了兩個輔助變數:人口數和個體數,對於輔助變數是個體數的完全可以使用規模分配方法分配樣本量,個體數多的分配較多的樣本量;對於輔助變數是人口數的如果採取規模分配方法,由於人口數與一個地區的個體單位數沒有必然的聯系,可能導致某些居委會的個體數比較多,卻分配了較少的樣本量,使得居委會分層變的困難,同時使居委會方差顯著增大。而獲得較多樣本量的居委會,分層的效果和方差提高幅度有限,故採用比例分配的方法可能更加合適一些。對於居委會村委會的抽取,由於本階可能存在市場內的抽樣,分配復雜一些;如果本階有市場內抽樣,可以適當減少居委會村委會的樣本量,但應該大於本階樣本量的80%,由於市場內抽樣的特殊性,建議將本階樣本量全部分配給居委會村委會,我們所進行的試點就是將樣本全部分配給居委會;至於市場內抽樣的具體實施,可以根據方案操作完成。對居委會村委會層內,由於使用簡單隨機抽樣完成,採用比例分配平均分配就可。 在實際工作時,由於一個區縣包括全部鄉鎮街道或其中的一個;根據方案,區縣抽取辦事處的數量應該介於12-4個之間,對應於抽中鄉、鎮、街道的全部或其中一個,那麼其每一個鄉鎮街道採取比例分配平均分配的樣本量應該是11-32個之間;所抽中的居委會、村委會數量應該介於16-48個之間,如果個別鄉鎮街道抽中的居委會是2個,則其居委會總數相應減少一些;最後,每個居委會、村委會的樣本量應該介於3-16個之間,大部分介於5-10之間。以上的討論沒有考慮總體的大小,如果考慮到居委會、村委會的總體有限,則每個居委會村委會的樣本量可以減少一些,具體可以採用以下公式得到具體樣本量的調整數: 樣本量n=n1*N/(N+n1)。N是本地區總體,n1 是給本地區分配樣本量 居委會樣本量的調整數,應該作為本居委會樣本量的底限。 確定辦事處、居委會村委會的樣本量,與以下幾點有關: a)估計量的誤差、置信度,可以決定簡單隨機抽樣的樣本量 b)與採用的抽樣方法有關系,它決定了設計效應的大小。例如:分層抽樣的設計效應值小於1,多階抽樣的設計效應值大於1。可以決定整個抽樣的樣本量。 c)與每一階的分層的數目有關系,所以,應該重點考慮分層的問題,分層太多,沒有必要;分層太少,導致層內的方差增大,可能影響估計值的精度以及設計效應的值,所以,在每階分層時,應該合理考慮,使得樣本的變異程度在層內達到一個合理水平。 根據以上原則,我們在包頭的抽樣試點共抽取4個辦事處,包括14個居委會;一個鄉,包括4個村委會,經過清查共有批零業1042個,單位70個;餐飲業250個,單位3個。由於我們使用人口數作為輔助變數,應該採用比例分配方法平均分配樣本量,這樣每個街道辦事處得到26個樣本, 對於抽取4個居委會的辦事處,每個居委會分配得到7個樣本;對於抽取2個居委會的辦事處,每個居委會分配到13個樣本。然後根據居委會總體對樣本量做出調整,得到居委會實際樣本量。 2.確定居委會村委會內分層樣本量 以上我們討論如何分配給鄉鎮居委會村委會樣本量,現在分析給居委會村委會以下各層分配樣本量,這一步,清查的工作就顯得非常重要了,重點應該清查規模、類別,首先是規模,規模的大小不應該根據工商注冊為單位或個體決定,應該根據實際情況,即使是個體,如果規模較大,也應該歸入大規模分層中,這樣就可以使得每層的樣本變異程度顯著降低,從而提高精確度。根據實際情況可以包括兩種: (1)如果全部是規模比較小的單位個體戶,我們可以根據類別進行適當的分組,將某一類單位比較多的單獨分層;將另外類別比較少的,可以幾類合並進行抽取具體樣本,分層不要多於4層,並保證每層的樣本量不小於2個。由於居委會樣本量數目已經確定,我們可以直接採取比例分配方法,確定各層樣本量。 (2)如果規模比較大的和規模小的並存,可以將規模比較大的單獨分層,不用考慮其中的類別;將規模較小的主要是個體戶可以根據類別進行分層;其中的難題是如何將樣本量在規模大的和規模小的之間分配,因為大規模層內樣本變異程度有可能很大,應該抽取較多的樣本量,經過測試,如果大規模層總體小於等於5,應該對其進行全面調查;如果大於5個,可以採用以下的公式計算得到: n=0.25/(e2/t2+ 0.25/N),其中:e=30%,t=2.1,N為規模較大的數目。 其他規模較小的,使用比例分配法分配其他的樣本,實際分層時,最好不要超過4層,保證每層不少於2個,由於大規模層的存在,可能佔去了較多的樣本量,導致其它層不夠分配,這種情況下,可考慮增加層內一定樣本量。 經過以上的分析、計算可以得到居委會村委會的樣本數量。 總結: 由於情況的多樣性,各地在具體實施方案時可能有所不同,有的分層少一些,有的多一些,但是計算的方法和原則是相同的,各地應該在保證抽樣精度的前提下,得到合適的樣本量,同時加大對於樣本點的管理。下表是我們試點地區抽中居委會的清查數目,以及實際抽中的樣本量,與調整數比較,在18個居委會中,16個居委會認為適合要求,2個居委會樣本量數目有一些偏少,主要是由於對居委會規模較大的層,沒有達到抽取要求;表五、六、七列是大規模層的總體數和應該分配的樣本量,在試點中個別地區沒有達到要求。這提示我們,應該非常重視各階的清查工作,提前計算得到得到合適的樣本量。在認真清查以後,根據清查結果,對辦事處、居委會進行合理的分層,以規定的方法抽取適當的辦事處和居委會;同時應該將重點放在對居委會內單位的清查上,將規模大的單位放在一層,其他個體可以根據類別進行合適分層抽樣,及時計算得到各層的樣本量。 我們以上的分析計算,均取比較保守的參數,實際上,樣本的變異程度即P的值沒有達到0.5;同時由於我們在各階採取了合理的分層,保證了設計效應的值應該小於3,所以對於縣區的估計值完全可以達到誤差要求。

Ⅹ 請教統計問題:如果一組數據標准差很大,我想去掉偏離度大的數據,應該依據什麼原則

統計學軟體很多,簡單的用excel就好了,稍微專業一點就用spss吧。
你的問題很模糊,標准差很大原因可能很多,比如整體的分布先看看是不是正態的,如果是其他分布,如平均,離散,或者其他亂七八糟的分布,標准差大不是一個兩個值影響拿廳的,而是整體本來就是這樣的,標准鏈並差本來就大,所以無法剔消喚隱除偏離度大的數據,如果你的數據是正態的,可以使用一種估計取值區間的方法把偏離度大的數據找出來。

閱讀全文

與標准差太大如何修正數據相關的資料

熱點內容
小程序輕應用是什麼意思 瀏覽:652
代理商的錢怎麼處理 瀏覽:874
雙方不信任怎麼交易 瀏覽:320
歐美發達國家市場對什麼比較看重 瀏覽:979
番禺東江市場賣什麼 瀏覽:223
發現買賣粉絲可以投訴到什麼信息 瀏覽:792
到室外推銷產品怎麼做 瀏覽:600
什麼是單位信息採集表 瀏覽:169
蘋果手機怎麼設置數據和wifi使用 瀏覽:61
cf皮膚卡怎麼交易 瀏覽:11
審計項目如何履行程序 瀏覽:600
在哪裡能查詢到退費信息 瀏覽:505
我想做家電代理現在應該怎麼辦呢 瀏覽:12
雨刷數據怎麼判斷下雨 瀏覽:370
仲裁後如何啟動監督程序 瀏覽:192
什麼叫變數數據類 瀏覽:523
軟體的主程序目錄一般是哪個 瀏覽:606
金沙窖酒怎麼代理 瀏覽:651
珠海郵寄信息多久能到鄭州 瀏覽:610
抖音能知道哪些信息 瀏覽:557