導航:首頁 > 數據處理 > geo數據集怎麼找臨床信息

geo數據集怎麼找臨床信息

發布時間：2023-07-26 15:56:39

『壹』基因晶元數據分析-1: 使用GEOquery 包從GEO獲取數據

GEOquery 包使用指南

GEO（The NCBI Gene Expression Omnibus）是NCBI專門儲存高通量測序的庫。如基於晶元數據（mRNA、DNA、蛋白豐度），蛋白質質譜數據和高通量測序數據。
GEO數據主要有4種基本類型。Sample, Platform 和 Series是由作者上傳的數據，dataset是由GEO官方從做和提交的數據整理出來的。

## 1.1 Platforms
GEO 號：GPLxxx。
晶元的組成信息，例如 cDNAs, oligonucleotide probesets, ORFs, antibodies 。或者其它定量檢測平台信息，例如SAGE tags, peptides。

## 1.2 Samples
GEO 號: GSMxxx

描述單個樣本信息猜瞎，處理步驟、處理條件以及實驗測得的結果。一個樣本可能屬於多個研究（Series）。

## 1.3 Series
GEO 號：GSExxx

涉及同一個研究的記錄，包括處理過的數據、總結和分析；信息可以從GSEMatrix文件解析快速得到。

##1.4 Datasets
GEO 號：GDSxxx

一套經過整理的GEO 數據集。每套數據都是可以進行生物學或者統計學上比較的樣本，是GEO自帶工具進行數據分析和展示的基礎。一個 GDS數據集來自同一個判兆緩平台，數據分析和標准化都具有一致性。

getGEO 函數可以從GEO官網獲取數據或者將固定格式數據解析為R格式的數據。

GEOquery 數據結構大致分為兩類。第一種是GDS, GPL和GSM,他們的操作和數據類型差不多；第二種是GSE，GSE數據是由GSM和GPL整合而成。

## 3.1 GDS, GSM 和 GPL

這些數據類組成

可以使掘模用show()查看這些數據類。

##3.2 GSE類

GSE類組成：

GEO datasets與limma 數據結構MAList 和Biobase數據結構 ExpressionSet比較相似。可以相互轉換：

## 4.1 Getting GSE Series Matrix files as an ExpressionSet
GEO Series是一套實驗數據的集合，有SOFT，MINiML格式文件，以及一個 Series Matrix File(s)文本。Series Matrix File是tab-delimited text， getGEO 函數可以解析，解析結果就是ExpressionSets。

一個GSE下如果存在多個GPL測序，篩選特定的GPL數據；GSE會有多個列表 gset[[idx]]

##4.2 Converting GDS to an ExpressionSet

##4.3 Converting GDS to an MAList
ExpressionSet不包含注釋信息， getGEO 可以幫助我們獲取。

與ExpressionSet不同，the limma MAList 包含基因注釋信息。上面的gpl包含注釋信息。

MAList不僅包含數據，還包含樣本信息，和注釋信息。

4.4 Converting GSE to an ExpressionSet
GSE轉換成ExpressionSet

這個GSE包含兩個GPLs，GPL96 和 GPL97。

篩選使用GPL96 的GSM。

獲取表達矩陣：

構造ExpressionSet

##6.1 Getting all Series Records for a Given Platform

英文版原文見：[Using the GEOquery Package

『貳』如何在GEO資料庫中找到需要的數據

假設這組數據在A1:A100這個區域，公式：
=INDEX(A:A,INT(RAND()*100)+1)

或者：
=OFFSET(A1,INT(RAND()*100),)

『叄』找GSE數據集+基因注釋

【ppmm】如果要作GEO數據分析，最初的步驟總是逃不過尋找GEO數據集。另外，某些數據集的晶元平台（GPL）使用的人少， 需要自己注釋基因 。所以就有了這篇……

優點： ①文獻能幫你快速了解文中的GEO數據集；②文獻會提供一種數據集分析方法；③有時你可以藉助文獻判斷自己分析結果的可用性。
缺點： 在設計課題時思路可能會受到些影響。

有兩種途徑找GSE數據，並且兩個方法所展示的數據集種類有些不同，個人喜歡從「series」進入：

先搜索能否直接利用包進行注釋：生信菜鳥團：用R獲取晶元探針與基因的對應關系三部曲-bioconctor

請保存號「ids」文件，這個便是之後的注釋文件。
另外，GPL注釋有時會因為文件過大需要時間較長。

『肆』 geo資料庫差異基因怎麼在EXCEL里操作

geo資料庫篩選數據方法是：
1、首先，打開NCBI，選擇GEODatasets，輸入GDS5656，點擊Search。
2、點擊樣品分類號，我們可以看到該研究的詳情，包括文章研究內容、實驗方案設計、樣本詳情等。
3、點擊AnalyzewithGEO2R，利用在線工具進行數據分析。將4個樣本分成了兩組，分組完畢後，點擊saveallresults，獲取兩組之間的差異表達基因。
4、得到如下所示的文本內容，將其粘貼到記事本(例如，保存為result.txt)，然後導入到excel中(數據→自文本，選擇result.txt文件導入)，准備進行篩選。
5、下一步，我們需要對差異表達基因的數據進行進一步的篩選。
6、最後我們可以在EXCEL左下角的狀態欄看到，一共篩選出來738個條目。

『伍』 GEO資料庫如何選擇某一數據集中的部分樣本進行差異分析呢

在 GEO 資料庫中，選擇部分樣本進行差異分析的方法可能會有所不同，具體取決於您選擇的差異分析工具和方法。

一種常用的方法是使用 GEO2R 工具，它是 GEO 資料庫的內置差異分析工具，可以讓您在線對 GEO 數據進行差異分析。在使用 GEO2R 時，您可以在「Sample Information」頁面中選擇需要分析的樣本。您可以選擇多個樣本作為組內樣本和組間樣本，並在「Comparison」頁面中設置樣本組。GEO2R 會使用 R 包進行差異分析，並為您生成統計學和可視化結果。

另一種方法是使用其他第三方分析工具，如 R/Bioconctor 中的 limma 包，這樣就可以編寫腳本來讀取GEO數據並進行相關操作。首先，您需要使用 GEOquery 包下載數據，然後將數據轉換為ExpressionSet對象。接著，您可以使用subset函數來選擇需要的樣本，並使用 limma 包中的 lmFit 和 eBayes 函數進行差異分析。

無論採用哪種方法，都需要充分考慮樣本選擇和組設置，以確保差異分析的正確性和可靠性。

此外，在選擇樣本之前還有其它需要考慮的條件，如樣本的來源，採集時間和方式等。這些條件都可能對結果產生影響，因此應當在研究中明確說明。

另外，需要注意數據清洗，如剔除異常值、缺失值等，確保數據質量。

在使用 GEO 資料庫進行差異分析時，還需要注意 GEO 資料庫中樣本的表達量數據通常都是在平均值和標准差之間轉換的，如果洞態態要閉首使用其他數據進行比較，需要轉換納源為相同的格式。

閱讀全文

與geo數據集怎麼找臨床信息相關的資料

熱點內容

把t3數據錄入到t怎麼錄期初發布：2025-03-07 03:25:04 瀏覽：107

期貨什麼時候下午交易發布：2025-03-07 03:07:32 瀏覽：484

為什麼自己要和別人交易發布：2025-03-07 03:07:25 瀏覽：446

青島河西區農貿市場有多少個商戶發布：2025-03-07 03:06:06 瀏覽：417

台灣軍工技術與大陸哪個先進發布：2025-03-07 03:05:55 瀏覽：898

怎麼看待北京證券交易所發布：2025-03-07 03:05:13 瀏覽：580

數據收集渠道是干什麼的發布：2025-03-07 02:52:58 瀏覽：629

蘋果如何操作關閉後台程序發布：2025-03-07 02:46:27 瀏覽：58

titan幣在哪個交易所發布：2025-03-07 02:46:25 瀏覽：782

123456是什麼數據類型發布：2025-03-07 02:27:33 瀏覽：506

色素斑用什麼牌子的產品好發布：2025-03-07 02:19:59 瀏覽：370

硬碟怎麼互相拷貝數據發布：2025-03-07 02:18:26 瀏覽：305

上海新房在哪個小程序看發布：2025-03-07 02:16:14 瀏覽：244

產品設計是什麼思維導圖發布：2025-03-07 02:16:11 瀏覽：721

達州活牛市場在哪裡發布：2025-03-07 02:15:17 瀏覽：816

如何創新環保產品論文發布：2025-03-07 02:14:31 瀏覽：487

市場調查什麼專業要學發布：2025-03-07 02:12:56 瀏覽：259

產品引用的素材有哪些發布：2025-03-07 01:55:50 瀏覽：846

如何改正微信信息發布：2025-03-07 01:55:01 瀏覽：957

公積金貸款怎麼代理發布：2025-03-07 01:54:59 瀏覽：936