导航:首页 > 数据处理 > geo数据集怎么找临床信息

geo数据集怎么找临床信息

发布时间:2023-07-26 15:56:39

‘壹’ 基因芯片数据分析-1: 使用GEOquery 包从GEO获取数据

GEOquery 包使用指南

GEO(The NCBI Gene Expression Omnibus)是NCBI专门储存高通量测序的库。如基于芯片数据(mRNA、DNA、蛋白丰度),蛋白质质谱数据和高通量测序数据。
GEO数据主要有4种基本类型。Sample, Platform 和 Series是由作者上传的数据,dataset是由GEO官方从做和提交的数据整理出来的。

## 1.1 Platforms
GEO 号:GPLxxx。
芯片的组成信息,例如 cDNAs, oligonucleotide probesets, ORFs, antibodies 。或者其它定量检测平台信息,例如SAGE tags, peptides。

## 1.2 Samples
GEO 号: GSMxxx

描述单个样本信息猜瞎,处理步骤、处理条件以及实验测得的结果。一个样本可能属于多个研究(Series)。

## 1.3 Series
GEO 号:GSExxx

涉及同一个研究的记录,包括处理过的数据、总结和分析;信息可以从GSEMatrix文件解析快速得到。

##1.4 Datasets
GEO 号:GDSxxx

一套经过整理的GEO 数据集。每套数据都是可以进行生物学或者统计学上比较的样本,是GEO自带工具进行数据分析和展示的基础。一个 GDS数据集来自同一个判兆缓平台,数据分析和标准化都具有一致性。

getGEO 函数可以从GEO官网获取数据或者将固定格式数据解析为R格式的数据。

GEOquery 数据结构大致分为两类。第一种是GDS, GPL和GSM,他们的操作和数据类型差不多;第二种是GSE,GSE数据是由GSM和GPL整合而成。

## 3.1 GDS, GSM 和 GPL

这些数据类组成

可以使掘模用show()查看这些数据类。

##3.2 GSE类

GSE类组成:

GEO datasets与limma 数据结构MAList 和Biobase数据结构 ExpressionSet比较相似。可以相互转换:

## 4.1 Getting GSE Series Matrix files as an ExpressionSet
GEO Series是一套实验数据的集合,有SOFT,MINiML格式文件,以及一个 Series Matrix File(s)文本。Series Matrix File是tab-delimited text, getGEO 函数可以解析,解析结果就是ExpressionSets。

一个GSE下如果存在多个GPL测序,筛选特定的GPL数据;GSE会有多个列表 gset[[idx]]

##4.2 Converting GDS to an ExpressionSet

##4.3 Converting GDS to an MAList
ExpressionSet不包含注释信息, getGEO 可以帮助我们获取。

与ExpressionSet不同,the limma MAList 包含基因注释信息。上面的gpl包含注释信息。

MAList不仅包含数据,还包含样本信息,和注释信息。

4.4 Converting GSE to an ExpressionSet
GSE转换成ExpressionSet

这个GSE包含两个GPLs,GPL96 和 GPL97。

筛选使用GPL96 的GSM。

获取表达矩阵:

构造ExpressionSet

##6.1 Getting all Series Records for a Given Platform

英文版原文见:[Using the GEOquery Package

‘贰’ 如何在GEO数据库中找到需要的数据

假设这组数据在A1:A100这个区域 ,公式:
=INDEX(A:A,INT(RAND()*100)+1)

或者:
=OFFSET(A1,INT(RAND()*100),)

‘叁’ 找GSE数据集+基因注释

【ppmm】如果要作GEO数据分析,最初的步骤总是逃不过寻找GEO数据集。另外,某些数据集的芯片平台(GPL)使用的人少, 需要自己注释基因 。所以就有了这篇……

优点: ①文献能帮你快速了解文中的GEO数据集;②文献会提供一种数据集分析方法;③有时你可以借助文献判断自己分析结果的可用性。
缺点: 在设计课题时思路可能会受到些影响。

有两种途径找GSE数据,并且两个方法所展示的数据集种类有些不同,个人喜欢从“series”进入:

先搜索能否直接利用包进行注释: 生信菜鸟团:用R获取芯片探针与基因的对应关系三部曲-bioconctor

请保存号“ids”文件,这个便是之后的注释文件。
另外,GPL注释有时会因为文件过大需要时间较长。

‘肆’ geo数据库差异基因怎么在EXCEL里操作

geo数据库筛选数据方法是:
1、首先,打开NCBI,选择GEODatasets,输入GDS5656,点击Search。
2、点击样品分类号,我们可以看到该研究的详情,包括文章研究内容、实验方案设计、样本详情等。
3、点击AnalyzewithGEO2R,利用在线工具进行数据分析。将4个样本分成了两组,分组完毕后,点击saveallresults,获取两组之间的差异表达基因。
4、得到如下所示的文本内容,将其粘贴到记事本(例如,保存为result.txt),然后导入到excel中(数据→自文本,选择result.txt文件导入),准备进行筛选。
5、下一步,我们需要对差异表达基因的数据进行进一步的筛选。
6、最后我们可以在EXCEL左下角的状态栏看到,一共筛选出来738个条目。

‘伍’ GEO数据库 如何选择某一数据集中的部分样本进行差异分析呢

在 GEO 数据库中,选择部分样本进行差异分析的方法可能会有所不同,具体取决于您选择的差异分析工具和方法。

一种常用的方法是使用 GEO2R 工具,它是 GEO 数据库的内置差异分析工具,可以让您在线对 GEO 数据进行差异分析。在使用 GEO2R 时,您可以在“Sample Information”页面中选择需要分析的样本。您可以选择多个样本作为组内样本和组间样本,并在“Comparison”页面中设置样本组。GEO2R 会使用 R 包进行差异分析,并为您生成统计学和可视化结果。

另一种方法是使用其他第三方分析工具,如 R/Bioconctor 中的 limma 包,这样就可以编写脚本来读取GEO数据并进行相关操作。首先,您需要使用 GEOquery 包下载数据,然后将数据转换为ExpressionSet对象。接着,您可以使用subset函数来选择需要的样本,并使用 limma 包中的 lmFit 和 eBayes 函数进行差异分析。

无论采用哪种方法,都需要充分考虑样本选择和组设置,以确保差异分析的正确性和可靠性。

此外,在选择样本之前还有其它需要考虑的条件,如样本的来源,采集时间和方式等。这些条件都可能对结果产生影响,因此应当在研究中明确说明。

另外,需要注意数据清洗,如剔除异常值、缺失值等,确保数据质量。

在使用 GEO 数据库进行差异分析时,还需要注意 GEO 数据库中样本的表达量数据通常都是在平均值和标准差之间转换的,如果洞态态要闭首使用其他数据进行比较,需要转换纳源为相同的格式。

阅读全文

与geo数据集怎么找临床信息相关的资料

热点内容
流沙有哪些市场 浏览:623
大数据把多少小企业搞死 浏览:100
apachedruid是什么数据库 浏览:588
手机程序包换了怎么办 浏览:648
如何清除王者荣耀微信数据 浏览:503
网络扶贫产品有哪些 浏览:383
上技术学院需要准备什么 浏览:587
数据类型哪些是字符型 浏览:33
售卖伪造3c的产品怎么判 浏览:11
哪个手机上的小程序能看电视剧 浏览:249
技术领先者是什么 浏览:477
除了打电话报案发信息怎么报案 浏览:447
卡拉宝的目标市场有哪些 浏览:335
基金撤销交易后资金什么时候到账 浏览:19
如何建立小程序官网 浏览:392
剔除数据为什么要剔除金融行业 浏览:698
安全技术防范备案怎么做 浏览:206
lead用什么代理软件 浏览:598
新式家居产品有哪些 浏览:871
交易日送股一般多少个 浏览:96