導航:首頁 > 數據處理 > geo數據集怎麼找臨床信息

geo數據集怎麼找臨床信息

發布時間:2023-07-26 15:56:39

『壹』 基因晶元數據分析-1: 使用GEOquery 包從GEO獲取數據

GEOquery 包使用指南

GEO(The NCBI Gene Expression Omnibus)是NCBI專門儲存高通量測序的庫。如基於晶元數據(mRNA、DNA、蛋白豐度),蛋白質質譜數據和高通量測序數據。
GEO數據主要有4種基本類型。Sample, Platform 和 Series是由作者上傳的數據,dataset是由GEO官方從做和提交的數據整理出來的。

## 1.1 Platforms
GEO 號:GPLxxx。
晶元的組成信息,例如 cDNAs, oligonucleotide probesets, ORFs, antibodies 。或者其它定量檢測平台信息,例如SAGE tags, peptides。

## 1.2 Samples
GEO 號: GSMxxx

描述單個樣本信息猜瞎,處理步驟、處理條件以及實驗測得的結果。一個樣本可能屬於多個研究(Series)。

## 1.3 Series
GEO 號:GSExxx

涉及同一個研究的記錄,包括處理過的數據、總結和分析;信息可以從GSEMatrix文件解析快速得到。

##1.4 Datasets
GEO 號:GDSxxx

一套經過整理的GEO 數據集。每套數據都是可以進行生物學或者統計學上比較的樣本,是GEO自帶工具進行數據分析和展示的基礎。一個 GDS數據集來自同一個判兆緩平台,數據分析和標准化都具有一致性。

getGEO 函數可以從GEO官網獲取數據或者將固定格式數據解析為R格式的數據。

GEOquery 數據結構大致分為兩類。第一種是GDS, GPL和GSM,他們的操作和數據類型差不多;第二種是GSE,GSE數據是由GSM和GPL整合而成。

## 3.1 GDS, GSM 和 GPL

這些數據類組成

可以使掘模用show()查看這些數據類。

##3.2 GSE類

GSE類組成:

GEO datasets與limma 數據結構MAList 和Biobase數據結構 ExpressionSet比較相似。可以相互轉換:

## 4.1 Getting GSE Series Matrix files as an ExpressionSet
GEO Series是一套實驗數據的集合,有SOFT,MINiML格式文件,以及一個 Series Matrix File(s)文本。Series Matrix File是tab-delimited text, getGEO 函數可以解析,解析結果就是ExpressionSets。

一個GSE下如果存在多個GPL測序,篩選特定的GPL數據;GSE會有多個列表 gset[[idx]]

##4.2 Converting GDS to an ExpressionSet

##4.3 Converting GDS to an MAList
ExpressionSet不包含注釋信息, getGEO 可以幫助我們獲取。

與ExpressionSet不同,the limma MAList 包含基因注釋信息。上面的gpl包含注釋信息。

MAList不僅包含數據,還包含樣本信息,和注釋信息。

4.4 Converting GSE to an ExpressionSet
GSE轉換成ExpressionSet

這個GSE包含兩個GPLs,GPL96 和 GPL97。

篩選使用GPL96 的GSM。

獲取表達矩陣:

構造ExpressionSet

##6.1 Getting all Series Records for a Given Platform

英文版原文見:[Using the GEOquery Package

『貳』 如何在GEO資料庫中找到需要的數據

假設這組數據在A1:A100這個區域 ,公式:
=INDEX(A:A,INT(RAND()*100)+1)

或者:
=OFFSET(A1,INT(RAND()*100),)

『叄』 找GSE數據集+基因注釋

【ppmm】如果要作GEO數據分析,最初的步驟總是逃不過尋找GEO數據集。另外,某些數據集的晶元平台(GPL)使用的人少, 需要自己注釋基因 。所以就有了這篇……

優點: ①文獻能幫你快速了解文中的GEO數據集;②文獻會提供一種數據集分析方法;③有時你可以藉助文獻判斷自己分析結果的可用性。
缺點: 在設計課題時思路可能會受到些影響。

有兩種途徑找GSE數據,並且兩個方法所展示的數據集種類有些不同,個人喜歡從「series」進入:

先搜索能否直接利用包進行注釋: 生信菜鳥團:用R獲取晶元探針與基因的對應關系三部曲-bioconctor

請保存號「ids」文件,這個便是之後的注釋文件。
另外,GPL注釋有時會因為文件過大需要時間較長。

『肆』 geo資料庫差異基因怎麼在EXCEL里操作

geo資料庫篩選數據方法是:
1、首先,打開NCBI,選擇GEODatasets,輸入GDS5656,點擊Search。
2、點擊樣品分類號,我們可以看到該研究的詳情,包括文章研究內容、實驗方案設計、樣本詳情等。
3、點擊AnalyzewithGEO2R,利用在線工具進行數據分析。將4個樣本分成了兩組,分組完畢後,點擊saveallresults,獲取兩組之間的差異表達基因。
4、得到如下所示的文本內容,將其粘貼到記事本(例如,保存為result.txt),然後導入到excel中(數據→自文本,選擇result.txt文件導入),准備進行篩選。
5、下一步,我們需要對差異表達基因的數據進行進一步的篩選。
6、最後我們可以在EXCEL左下角的狀態欄看到,一共篩選出來738個條目。

『伍』 GEO資料庫 如何選擇某一數據集中的部分樣本進行差異分析呢

在 GEO 資料庫中,選擇部分樣本進行差異分析的方法可能會有所不同,具體取決於您選擇的差異分析工具和方法。

一種常用的方法是使用 GEO2R 工具,它是 GEO 資料庫的內置差異分析工具,可以讓您在線對 GEO 數據進行差異分析。在使用 GEO2R 時,您可以在「Sample Information」頁面中選擇需要分析的樣本。您可以選擇多個樣本作為組內樣本和組間樣本,並在「Comparison」頁面中設置樣本組。GEO2R 會使用 R 包進行差異分析,並為您生成統計學和可視化結果。

另一種方法是使用其他第三方分析工具,如 R/Bioconctor 中的 limma 包,這樣就可以編寫腳本來讀取GEO數據並進行相關操作。首先,您需要使用 GEOquery 包下載數據,然後將數據轉換為ExpressionSet對象。接著,您可以使用subset函數來選擇需要的樣本,並使用 limma 包中的 lmFit 和 eBayes 函數進行差異分析。

無論採用哪種方法,都需要充分考慮樣本選擇和組設置,以確保差異分析的正確性和可靠性。

此外,在選擇樣本之前還有其它需要考慮的條件,如樣本的來源,採集時間和方式等。這些條件都可能對結果產生影響,因此應當在研究中明確說明。

另外,需要注意數據清洗,如剔除異常值、缺失值等,確保數據質量。

在使用 GEO 資料庫進行差異分析時,還需要注意 GEO 資料庫中樣本的表達量數據通常都是在平均值和標准差之間轉換的,如果洞態態要閉首使用其他數據進行比較,需要轉換納源為相同的格式。

閱讀全文

與geo數據集怎麼找臨床信息相關的資料

熱點內容
塗料產品檢測哪些 瀏覽:287
亞馬遜上傳的產品怎麼清理 瀏覽:42
微分子技術用到護膚品中會怎麼樣 瀏覽:68
如何找到小程序推送消息 瀏覽:298
美股沒有盤前交易說明什麼 瀏覽:64
地圖產品怎麼傳遞 瀏覽:721
棗庄智慧經營代理哪裡有店 瀏覽:766
製作微信小程序時攝氏度如何表達 瀏覽:891
數字程序卡哪裡有賣 瀏覽:121
流沙有哪些市場 瀏覽:623
大數據把多少小企業搞死 瀏覽:100
apachedruid是什麼資料庫 瀏覽:588
手機程序包換了怎麼辦 瀏覽:648
如何清除王者榮耀微信數據 瀏覽:503
網路扶貧產品有哪些 瀏覽:383
上技術學院需要准備什麼 瀏覽:587
數據類型哪些是字元型 瀏覽:33
售賣偽造3c的產品怎麼判 瀏覽:11
哪個手機上的小程序能看電視劇 瀏覽:249
技術領先者是什麼 瀏覽:477