『壹』 geo資料庫數據如何標准化
標准化的方法就是Counts值:
對給定的基因組參考區域,計算比對上的read數,又稱為raw count(RC)。
aw count作為原始的read計數矩陣是一個絕對值,而絕對值的特點是基因長度、測序深度不同不可以比較。所以我們要進行標准化把count矩陣轉變為相對值,去除基因長度、測序深度的影響,我們採用分析的。
標准化的三種方法得出的三種值:
RPM (Reads per million mapped reads):RPM方法:10^6標准化了測序深度的影響,但沒有考慮轉錄本的長度的影響。
RPKM/FPKM方法:
103標准化了基因長度的影響,106標准化了測序深度的影響。TCGA的數據分析多採用這種結果。
TPM (Transcript per million):TPM的計算方法也同RPKM/FPKM類似,TPM可以看作是RPKM/FPKM值的百分比。
具體判斷方法:
表達量是否需要重新標准化。
可以通過boxplot函數觀察一下樣本表達豐度值的分布是否整齊進行判斷。
是否需要log2:根據數據值的大小。
如果表達豐度的數值在50以內,通常是經過log2轉化的。如果數字在幾百幾千,則是未經轉化的。
『貳』 如何在geo資料庫找想要的資料庫
1、首先GEO資料庫是個什麼鬼呢?
GEO資料庫全稱GENE EXPRESSION
OMNIBUS,是由美國國立生物技術信息中心NCBI創建並維護的基因表達資料庫。它創建於2000年,收錄了世界各國研究機構提交的高通量基因表達數據,也就是說只要是目前已經發表的論文,論文中涉及到的基因表達檢測的數據都可以通過這個資料庫中找到。
2、那GEO資料庫有哪些檢索入口呢?
最常用的有兩種方式,如果你知道GSE編號可以通過網址http://www.ncbi.nlm.nih.gov/geo直接進入,具體編號介紹文件下載方法見:https://www.omicsclass.com/article/1100
另外一種就是通過NCBI主頁的入口基因搜索下載。通常是不知道GEO編號,通過樣品類型,實驗處理,平台信息等搜索篩選想要的GEO數據:https://www.ncbi.nlm.nih.gov/,進入NCBI主頁,搜索數據選擇GEO DataSets,如果搜索某個基因表達量可選擇GEO Profiles。
『叄』 GEO挖掘實戰二、差異分析及富集分析
「生信技能樹」三陰性乳腺癌表達矩陣探索 系列筆記
GEO挖掘實戰一、初步探索數據 -
GEO挖掘實戰二、差異分析及富集分析 -
GEO挖掘實戰三、GSVA -
GEO挖掘實戰四、TNBC相關探索 -
晶元數據的差異分析一般使用limma包
之前學習RNA-seq轉錄組學習時,對富集分析的概念與滾掘坦流程有過一定的了散段解。主要分為ORF與GESA兩類,都可大桐用clusterProfiler包完成。在曾老師的視頻中後者是使用了MsigDB的數據集進行分析的。
- RNA-seq學習:No.5富集分析--ORF過表達 -
- RNA-seq學習:No.6富集分析--GESA -
主要需要上下調基因的ENTREZID
需要准備genelist數值型字元串,即為logFC值,從大到小排列;並以ENTREZID/SYMBOL命名。
『肆』 geo資料庫差異基因怎麼在EXCEL里操作
geo資料庫篩選數據方法是:
1、首先,打開NCBI,選擇GEODatasets,輸入GDS5656,點擊Search。
2、點擊樣品分類號,我們可以看到該研究的詳情,包括文章研究內容、實驗方案設計、樣本詳情等。
3、點擊AnalyzewithGEO2R,利用在線工具進行數據分析。將4個樣本分成了兩組,分組完畢後,點擊saveallresults,獲取兩組之間的差異表達基因。
4、得到如下所示的文本內容,將其粘貼到記事本(例如,保存為result.txt),然後導入到excel中(數據→自文本,選擇result.txt文件導入),准備進行篩選。
5、下一步,我們需要對差異表達基因的數據進行進一步的篩選。
6、最後我們可以在EXCEL左下角的狀態欄看到,一共篩選出來738個條目。