導航:首頁 > 數據處理 > 如何偽造數據通過主成分分析

如何偽造數據通過主成分分析

發布時間:2022-11-02 10:18:36

① 如何應用spss對數據進行主成分分析

首先、在spss中准備好要處理的數據,然後在菜單欄上執行:analyse--dimension rection--factor analyse。打開因素分析對話框

接著、看到下圖就是因素分析的對話框,將要分析的變數都放入variables窗口中

點擊descriptives按鈕,進入次級對話框,這個對話框可以輸出我們想要看到的描述統計量

② 機器學習數據降維方法 PCA主成分分析

PCA在機器學習中很常用,是一種無參數的數據降維方法。PCA步驟:
將原始數據按列組成n行m列矩陣X將X的每一行(代表一個屬性欄位)進行零均值化,即減去這一行的均值求出協方差矩陣求出協方差矩陣的特徵值及對應的特徵向量將特徵向量按對應特徵值大小從上到下按行排列成矩陣,取前k行組成矩陣PY=PX即為降維到k維後的數據1. PCA的推導
PCA通過線性變換將原始數據變換為一組各維度線性無關的表示,可用於提取數據的主要特徵分量,常用於高維數據的降維。
我們知道PCA是一種數據降維的方法,在降低維度的過程中,我們當然想要保留更多的特徵,PCA就是經過數學推導,保留最多特徵同時降維的方法。
在推導之前要先知道幾個基礎知識:
內積與投影
兩個維數相同的向量的內積被定義為:

假設A和B是兩個n維向量,我們知道n維向量可以等價表示為n維空間中的一條從原點發射的有向線段,為了簡單起見我們假設A和B均為二維向量,則A=(x1,y1),B=(x2,y2)。則在二維平面上A和B可以用兩條發自原點的有向線段表示,見下圖:

現在我們從A點向B所在直線引一條垂線。我們知道垂線與B的交點叫做A在B上的投影,再設A與B的夾角是a,則投影的矢量長度為|A|cos(a),其中|A|是向量A的模,也就是A線段的標量長度。
到這里還是看不出內積和這東西有什麼關系,不過如果我們將內積表示為另一種我們熟悉的形式:

現在事情似乎是有點眉目了:A與B的內積等於A到B的投影長度乘以B的模。再進一步,如果我們假設B的模為1,即讓|B|=1,那麼就變成了:

也就是說,設向量B的模為1,則A與B的內積值等於A向B所在直線投影的矢量長度!這就是內積的一種幾何解釋,也是我們得到的第一個重要結論。在後面的推導中,將反復使用這個結論。

下面我們繼續在二維空間內討論向量。上文說過,一個二維向量可以對應二維笛卡爾直角坐標系中從原點出發的一個有向線段。例如下面這個向量:

在代數表示方面,我們經常用線段終點的點坐標表示向量,例如上面的向量可以表示為(3,2),這是我們再熟悉不過的向量表示。
我們列舉的例子中基是正交的(即內積為0,或直觀說相互垂直),但可以成為一組基的唯一要求就是線性無關,非正交的基也是可以的。不過因為正交基有較好的性質,所以一般使用的基都是正交的。
3. 基變換的矩陣表示
一般的,如果我們有M個N維向量,想將其變換為由R個N維向量表示的新空間中,那麼首先將R個基按行組成矩陣A,然後將向量按列組成矩陣B,那麼兩矩陣的乘積AB就是變換結果,其中AB的第m列為A中第m列變換後的結果。(新基按行,向量按列)
特別要注意的是,這里R可以小於N,而R決定了變換後數據的維數。也就是說,我們可以將一N維數據變換到更低維度的空間中去,變換後的維度取決於基的數量。因此這種矩陣相乘的表示也可以表示降維變換。
最後,上述分析同時給矩陣相乘找到了一種物理解釋:兩個矩陣相乘的意義是將右邊矩陣中的每一列列向量變換到左邊矩陣中每一行行向量為基所表示的空間中去。更抽象的說,一個矩陣可以表示一種線性變換。很多同學在學線性代數時對矩陣相乘的方法感到奇怪,但是如果明白了矩陣相乘的物理意義,其合理性就一目瞭然了。
4. 協方差矩陣與優化目標
我們從上面的矩陣乘法與基變換可以看出,當新基的維數小於原來的維數時可以做到數據的降維,但是究竟如何選擇新基就是我們現在面臨的問題,我們想要選擇一個維數更小的新基,同時新基保留有更多的信息。我們知道矩陣向新基投影的形式,也就是PCA是將一組N維的特徵投影到K維(K<n)同時保留更多的特徵。 p=""></n)同時保留更多的特徵。>
那麼怎麼衡量更多的特徵,也就是投影後盡量少的重疊,投影值盡可能分散。
協方差
從二維到一維的降維,只需要找到一個一維基使得方差最大,但是三維降到二維呢?我們需要找到兩個基讓這個三維數據投影到兩個基上,如果我們找方差最大的兩個基,會發現他們完全一樣或者線性相關,這和一個基沒什麼區別,不能表達更多的信息,所以我們需要添加限制條件,我們希望這兩個基彼此線性無關,擴展到K個基也是一樣。
當協方差為0時,表示兩個欄位完全獨立。為了讓協方差為0,我們選擇第二個基時只能在與第一個基正交的方向上選擇。因此最終選擇的兩個方向一定是正交的。
至此,我們得到了降維問題的優化目標:將一組N維向量降為K維(K大於0,小於N),其目標是選擇K個單位(模為1)正交基,使得原始數據變換到這組基上後,各欄位兩兩間協方差為0,而欄位的方差則盡可能大(在正交的約束下,取最大的K個方差)。
關於PCA的貢獻率與K的選擇
在我的文章特徵值和特徵向量中說過,特徵值反映了矩陣對於特徵向量的拉伸程度,只有拉伸而沒有旋轉,也就是在特徵向量方向上的作用程度,所以在PCA中我們選取前K個特徵向量組成新基進行投影,就是因為原特徵在前K個特徵向量有最大的作用程度。
投影過後可以保留更多的信息,作用程度是用特徵值表示的,所以我們可以使用下面的式子表示貢獻率,貢獻率是表示投影後信息的保留程度的變數,也就是特徵值的總和比上前K個特徵值,一般來說貢獻率要大於85%。

③ 主成分分析原理

PCA(Principal Component Analysis)是一種常用的數據分析方法。

PCA通過線性變換將原始數據變換為一組各維度線性無關的表示,可用於提取數據的主要特徵分量,常用於高維數據的降維。

④ 主成分分析的主要步驟包括

主成分分析是指通過將一組可能存在相關性的變數轉換城一組線性不相關的變數,轉換後的這組變數叫主成分。
主成分分析步驟:1、對原始數據標准化,2、計算相關系數,3、計算特徵,4、確定主成分,5、合成主成分。
主成分分析的原理是設法將原來變數重新組合成一組新的相互無關的幾個綜合變數,同時根據實際需要從中可以取出幾個較少的總和變數盡可能多地反映原來變數的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上處理降維的一種方法。

主成分分析的主要作用
1.主成分分析能降低所研究的數據空間的維數。
2.有時可通過因子負荷aij的結論,弄清X變數間的某些關系。
3.多維數據的一種圖形表示方法。
4.由主成分分析法構造回歸模型。即把各主成分作為新自變數代替原來自變數x做回歸分析。
5.用主成分分析篩選回歸變數。
最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Va(rF1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。

⑤ 如何對導入的數據進行主成分分析

多元線性回歸
1.打開數據,依次點擊:analyse--regression,打開多元線性回歸對話框。
2.將因變數和自變數放入格子的列表裡,上面的是因變數,下面的是自變數。
3.設置回歸方法,這里選擇最簡單的方法:enter,它指的是將所有的變數一次納入到方程。其他方法都是逐步進入的方法。
4.等級資料,連續資料不需要設置虛擬變數。多分類變數需要設置虛擬變數。
5.選項裡面至少選擇95%CI。
點擊ok。

因子分析
1輸入數據。
2點Analyze 下拉菜單,選Data Rection 下的Factor 。
3打開Factor Analysis後,將數據變數逐個選中進入Variables 對話框中。
4單擊主對話框中的Descriptive按扭,打開Factor Analysis: Descriptives子對話框,在Statistics欄中選擇Univariate Descriptives項要求輸出個變數的均值與標准差,在Correlation Matrix 欄內選擇Coefficients項,要求計算相關系數矩陣,單擊Continue按鈕返回Factor Analysis主對話框。
5單擊主對話框中的Extraction 按鈕,打開如下圖所示的Factor Analysis: Extraction 子對話框。在Method列表中選擇默認因子抽取方法——Principal Components,在Analyze 欄中選擇默認的Correlation Matrix 項要求從相關系數矩陣出發求解主成分,在Exact 欄中選擇Number of Factors;6, 要求顯示所有主成分的得分和所能解釋的方差。單擊Continue按鈕返回Factor Analysis主對話框。
6單擊主對話框中的OK 按鈕,輸出結果。

⑥ 主成分分析的基本步驟

主成分分析的基本步驟:

1、對原始數據標准化

2、計算相關系數

3、計算特徵

4、確定主成分

5、合成主成分。

閱讀全文

與如何偽造數據通過主成分分析相關的資料

熱點內容
商丘哪裡有小家電批發市場 瀏覽:873
資料庫如何計算負數 瀏覽:61
開車技術不行怎麼考科三 瀏覽:950
拍產品圖片攝影棚怎麼調節 瀏覽:115
美團風控怎麼檢測異常數據 瀏覽:123
在期貨交易平台上取錢要多久 瀏覽:610
散戶債券怎麼交易 瀏覽:146
技術大比武怎麼練 瀏覽:740
eq在數控程序里什麼意思 瀏覽:130
小程序怎麼新建 瀏覽:354
今年5月上海有什麼交易會 瀏覽:687
恆生電子數據運營怎麼樣 瀏覽:818
中西信息時代的差異有哪些 瀏覽:771
張掖市哪裡招聘信息 瀏覽:149
keil如何編寫程序 瀏覽:260
做烤瓷牙有什麼程序 瀏覽:580
銳捷網路出去的程序員技術如何 瀏覽:549
抖音小店怎麼選極致產品 瀏覽:21
抖音新手賣農產品怎麼樣 瀏覽:97
信息技術類哪個適合女生 瀏覽:505