‘壹’ geo数据库数据如何标准化
标准化的方法就是Counts值:
对给定的基因组参考区域,计算比对上的read数,又称为raw count(RC)。
aw count作为原始的read计数矩阵是一个绝对值,而绝对值的特点是基因长度、测序深度不同不可以比较。所以我们要进行标准化把count矩阵转变为相对值,去除基因长度、测序深度的影响,我们采用分析的。
标准化的三种方法得出的三种值:
RPM (Reads per million mapped reads):RPM方法:10^6标准化了测序深度的影响,但没有考虑转录本的长度的影响。
RPKM/FPKM方法:
103标准化了基因长度的影响,106标准化了测序深度的影响。TCGA的数据分析多采用这种结果。
TPM (Transcript per million):TPM的计算方法也同RPKM/FPKM类似,TPM可以看作是RPKM/FPKM值的百分比。
具体判断方法:
表达量是否需要重新标准化。
可以通过boxplot函数观察一下样本表达丰度值的分布是否整齐进行判断。
是否需要log2:根据数据值的大小。
如果表达丰度的数值在50以内,通常是经过log2转化的。如果数字在几百几千,则是未经转化的。
‘贰’ 如何在geo数据库找想要的数据库
1、首先GEO数据库是个什么鬼呢?
GEO数据库全称GENE EXPRESSION
OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。
2、那GEO数据库有哪些检索入口呢?
最常用的有两种方式,如果你知道GSE编号可以通过网址http://www.ncbi.nlm.nih.gov/geo直接进入,具体编号介绍文件下载方法见:https://www.omicsclass.com/article/1100
另外一种就是通过NCBI主页的入口基因搜索下载。通常是不知道GEO编号,通过样品类型,实验处理,平台信息等搜索筛选想要的GEO数据:https://www.ncbi.nlm.nih.gov/,进入NCBI主页,搜索数据选择GEO DataSets,如果搜索某个基因表达量可选择GEO Profiles。
‘叁’ GEO挖掘实战二、差异分析及富集分析
“生信技能树”三阴性乳腺癌表达矩阵探索 系列笔记
GEO挖掘实战一、初步探索数据 -
GEO挖掘实战二、差异分析及富集分析 -
GEO挖掘实战三、GSVA -
GEO挖掘实战四、TNBC相关探索 -
芯片数据的差异分析一般使用limma包
之前学习RNA-seq转录组学习时,对富集分析的概念与滚掘坦流程有过一定的了散段解。主要分为ORF与GESA两类,都可大桐用clusterProfiler包完成。在曾老师的视频中后者是使用了MsigDB的数据集进行分析的。
- RNA-seq学习:No.5富集分析--ORF过表达 -
- RNA-seq学习:No.6富集分析--GESA -
主要需要上下调基因的ENTREZID
需要准备genelist数值型字符串,即为logFC值,从大到小排列;并以ENTREZID/SYMBOL命名。
‘肆’ geo数据库差异基因怎么在EXCEL里操作
geo数据库筛选数据方法是:
1、首先,打开NCBI,选择GEODatasets,输入GDS5656,点击Search。
2、点击样品分类号,我们可以看到该研究的详情,包括文章研究内容、实验方案设计、样本详情等。
3、点击AnalyzewithGEO2R,利用在线工具进行数据分析。将4个样本分成了两组,分组完毕后,点击saveallresults,获取两组之间的差异表达基因。
4、得到如下所示的文本内容,将其粘贴到记事本(例如,保存为result.txt),然后导入到excel中(数据→自文本,选择result.txt文件导入),准备进行筛选。
5、下一步,我们需要对差异表达基因的数据进行进一步的筛选。
6、最后我们可以在EXCEL左下角的状态栏看到,一共筛选出来738个条目。