『壹』 基因晶元數據分析-1: 使用GEOquery 包從GEO獲取數據
GEOquery 包使用指南
GEO(The NCBI Gene Expression Omnibus)是NCBI專門儲存高通量測序的庫。如基於晶元數據(mRNA、DNA、蛋白豐度),蛋白質質譜數據和高通量測序數據。
GEO數據主要有4種基本類型。Sample, Platform 和 Series是由作者上傳的數據,dataset是由GEO官方從做和提交的數據整理出來的。
## 1.1 Platforms
GEO 號:GPLxxx。
晶元的組成信息,例如 cDNAs, oligonucleotide probesets, ORFs, antibodies 。或者其它定量檢測平台信息,例如SAGE tags, peptides。
## 1.2 Samples
GEO 號: GSMxxx
描述單個樣本信息猜瞎,處理步驟、處理條件以及實驗測得的結果。一個樣本可能屬於多個研究(Series)。
## 1.3 Series
GEO 號:GSExxx
涉及同一個研究的記錄,包括處理過的數據、總結和分析;信息可以從GSEMatrix文件解析快速得到。
##1.4 Datasets
GEO 號:GDSxxx
一套經過整理的GEO 數據集。每套數據都是可以進行生物學或者統計學上比較的樣本,是GEO自帶工具進行數據分析和展示的基礎。一個 GDS數據集來自同一個判兆緩平台,數據分析和標准化都具有一致性。
getGEO 函數可以從GEO官網獲取數據或者將固定格式數據解析為R格式的數據。
GEOquery 數據結構大致分為兩類。第一種是GDS, GPL和GSM,他們的操作和數據類型差不多;第二種是GSE,GSE數據是由GSM和GPL整合而成。
## 3.1 GDS, GSM 和 GPL
這些數據類組成
可以使掘模用show()查看這些數據類。
##3.2 GSE類
GSE類組成:
GEO datasets與limma 數據結構MAList 和Biobase數據結構 ExpressionSet比較相似。可以相互轉換:
## 4.1 Getting GSE Series Matrix files as an ExpressionSet
GEO Series是一套實驗數據的集合,有SOFT,MINiML格式文件,以及一個 Series Matrix File(s)文本。Series Matrix File是tab-delimited text, getGEO 函數可以解析,解析結果就是ExpressionSets。
一個GSE下如果存在多個GPL測序,篩選特定的GPL數據;GSE會有多個列表 gset[[idx]]
##4.2 Converting GDS to an ExpressionSet
##4.3 Converting GDS to an MAList
ExpressionSet不包含注釋信息, getGEO 可以幫助我們獲取。
與ExpressionSet不同,the limma MAList 包含基因注釋信息。上面的gpl包含注釋信息。
MAList不僅包含數據,還包含樣本信息,和注釋信息。
4.4 Converting GSE to an ExpressionSet
GSE轉換成ExpressionSet
這個GSE包含兩個GPLs,GPL96 和 GPL97。
篩選使用GPL96 的GSM。
獲取表達矩陣:
構造ExpressionSet
##6.1 Getting all Series Records for a Given Platform
英文版原文見:[Using the GEOquery Package
『貳』 如何在GEO資料庫中找到需要的數據
假設這組數據在A1:A100這個區域 ,公式:
=INDEX(A:A,INT(RAND()*100)+1)
或者:
=OFFSET(A1,INT(RAND()*100),)
『叄』 找GSE數據集+基因注釋
【ppmm】如果要作GEO數據分析,最初的步驟總是逃不過尋找GEO數據集。另外,某些數據集的晶元平台(GPL)使用的人少, 需要自己注釋基因 。所以就有了這篇……
優點: ①文獻能幫你快速了解文中的GEO數據集;②文獻會提供一種數據集分析方法;③有時你可以藉助文獻判斷自己分析結果的可用性。
缺點: 在設計課題時思路可能會受到些影響。
有兩種途徑找GSE數據,並且兩個方法所展示的數據集種類有些不同,個人喜歡從「series」進入:
先搜索能否直接利用包進行注釋: 生信菜鳥團:用R獲取晶元探針與基因的對應關系三部曲-bioconctor
請保存號「ids」文件,這個便是之後的注釋文件。
另外,GPL注釋有時會因為文件過大需要時間較長。
『肆』 geo資料庫差異基因怎麼在EXCEL里操作
geo資料庫篩選數據方法是:
1、首先,打開NCBI,選擇GEODatasets,輸入GDS5656,點擊Search。
2、點擊樣品分類號,我們可以看到該研究的詳情,包括文章研究內容、實驗方案設計、樣本詳情等。
3、點擊AnalyzewithGEO2R,利用在線工具進行數據分析。將4個樣本分成了兩組,分組完畢後,點擊saveallresults,獲取兩組之間的差異表達基因。
4、得到如下所示的文本內容,將其粘貼到記事本(例如,保存為result.txt),然後導入到excel中(數據→自文本,選擇result.txt文件導入),准備進行篩選。
5、下一步,我們需要對差異表達基因的數據進行進一步的篩選。
6、最後我們可以在EXCEL左下角的狀態欄看到,一共篩選出來738個條目。
『伍』 GEO資料庫 如何選擇某一數據集中的部分樣本進行差異分析呢
在 GEO 資料庫中,選擇部分樣本進行差異分析的方法可能會有所不同,具體取決於您選擇的差異分析工具和方法。
一種常用的方法是使用 GEO2R 工具,它是 GEO 資料庫的內置差異分析工具,可以讓您在線對 GEO 數據進行差異分析。在使用 GEO2R 時,您可以在「Sample Information」頁面中選擇需要分析的樣本。您可以選擇多個樣本作為組內樣本和組間樣本,並在「Comparison」頁面中設置樣本組。GEO2R 會使用 R 包進行差異分析,並為您生成統計學和可視化結果。
另一種方法是使用其他第三方分析工具,如 R/Bioconctor 中的 limma 包,這樣就可以編寫腳本來讀取GEO數據並進行相關操作。首先,您需要使用 GEOquery 包下載數據,然後將數據轉換為ExpressionSet對象。接著,您可以使用subset函數來選擇需要的樣本,並使用 limma 包中的 lmFit 和 eBayes 函數進行差異分析。
無論採用哪種方法,都需要充分考慮樣本選擇和組設置,以確保差異分析的正確性和可靠性。
此外,在選擇樣本之前還有其它需要考慮的條件,如樣本的來源,採集時間和方式等。這些條件都可能對結果產生影響,因此應當在研究中明確說明。
另外,需要注意數據清洗,如剔除異常值、缺失值等,確保數據質量。
在使用 GEO 資料庫進行差異分析時,還需要注意 GEO 資料庫中樣本的表達量數據通常都是在平均值和標准差之間轉換的,如果洞態態要閉首使用其他數據進行比較,需要轉換納源為相同的格式。