导航:首页 > 数据处理 > geo数据集怎么找临床信息

geo数据集怎么找临床信息

发布时间：2023-07-26 15:56:39

‘壹’ 基因芯片数据分析-1: 使用GEOquery 包从GEO获取数据

GEOquery 包使用指南

GEO（The NCBI Gene Expression Omnibus）是NCBI专门储存高通量测序的库。如基于芯片数据（mRNA、DNA、蛋白丰度），蛋白质质谱数据和高通量测序数据。
GEO数据主要有4种基本类型。Sample, Platform 和 Series是由作者上传的数据，dataset是由GEO官方从做和提交的数据整理出来的。

## 1.1 Platforms
GEO 号：GPLxxx。
芯片的组成信息，例如 cDNAs, oligonucleotide probesets, ORFs, antibodies 。或者其它定量检测平台信息，例如SAGE tags, peptides。

## 1.2 Samples
GEO 号: GSMxxx

描述单个样本信息猜瞎，处理步骤、处理条件以及实验测得的结果。一个样本可能属于多个研究（Series）。

## 1.3 Series
GEO 号：GSExxx

涉及同一个研究的记录，包括处理过的数据、总结和分析；信息可以从GSEMatrix文件解析快速得到。

##1.4 Datasets
GEO 号：GDSxxx

一套经过整理的GEO 数据集。每套数据都是可以进行生物学或者统计学上比较的样本，是GEO自带工具进行数据分析和展示的基础。一个 GDS数据集来自同一个判兆缓平台，数据分析和标准化都具有一致性。

getGEO 函数可以从GEO官网获取数据或者将固定格式数据解析为R格式的数据。

GEOquery 数据结构大致分为两类。第一种是GDS, GPL和GSM,他们的操作和数据类型差不多；第二种是GSE，GSE数据是由GSM和GPL整合而成。

## 3.1 GDS, GSM 和 GPL

这些数据类组成

可以使掘模用show()查看这些数据类。

##3.2 GSE类

GSE类组成：

GEO datasets与limma 数据结构MAList 和Biobase数据结构 ExpressionSet比较相似。可以相互转换：

## 4.1 Getting GSE Series Matrix files as an ExpressionSet
GEO Series是一套实验数据的集合，有SOFT，MINiML格式文件，以及一个 Series Matrix File(s)文本。Series Matrix File是tab-delimited text， getGEO 函数可以解析，解析结果就是ExpressionSets。

一个GSE下如果存在多个GPL测序，筛选特定的GPL数据；GSE会有多个列表 gset[[idx]]

##4.2 Converting GDS to an ExpressionSet

##4.3 Converting GDS to an MAList
ExpressionSet不包含注释信息， getGEO 可以帮助我们获取。

与ExpressionSet不同，the limma MAList 包含基因注释信息。上面的gpl包含注释信息。

MAList不仅包含数据，还包含样本信息，和注释信息。

4.4 Converting GSE to an ExpressionSet
GSE转换成ExpressionSet

这个GSE包含两个GPLs，GPL96 和 GPL97。

筛选使用GPL96 的GSM。

获取表达矩阵：

构造ExpressionSet

##6.1 Getting all Series Records for a Given Platform

英文版原文见：[Using the GEOquery Package

‘贰’ 如何在GEO数据库中找到需要的数据

假设这组数据在A1:A100这个区域，公式：
=INDEX(A:A,INT(RAND()*100)+1)

或者：
=OFFSET(A1,INT(RAND()*100),)

‘叁’ 找GSE数据集+基因注释

【ppmm】如果要作GEO数据分析，最初的步骤总是逃不过寻找GEO数据集。另外，某些数据集的芯片平台（GPL）使用的人少， 需要自己注释基因 。所以就有了这篇……

优点： ①文献能帮你快速了解文中的GEO数据集；②文献会提供一种数据集分析方法；③有时你可以借助文献判断自己分析结果的可用性。
缺点： 在设计课题时思路可能会受到些影响。

有两种途径找GSE数据，并且两个方法所展示的数据集种类有些不同，个人喜欢从“series”进入：

先搜索能否直接利用包进行注释：生信菜鸟团：用R获取芯片探针与基因的对应关系三部曲-bioconctor

请保存号“ids”文件，这个便是之后的注释文件。
另外，GPL注释有时会因为文件过大需要时间较长。

‘肆’ geo数据库差异基因怎么在EXCEL里操作

geo数据库筛选数据方法是：
1、首先，打开NCBI，选择GEODatasets，输入GDS5656，点击Search。
2、点击样品分类号，我们可以看到该研究的详情，包括文章研究内容、实验方案设计、样本详情等。
3、点击AnalyzewithGEO2R，利用在线工具进行数据分析。将4个样本分成了两组，分组完毕后，点击saveallresults，获取两组之间的差异表达基因。
4、得到如下所示的文本内容，将其粘贴到记事本(例如，保存为result.txt)，然后导入到excel中(数据→自文本，选择result.txt文件导入)，准备进行筛选。
5、下一步，我们需要对差异表达基因的数据进行进一步的筛选。
6、最后我们可以在EXCEL左下角的状态栏看到，一共筛选出来738个条目。

‘伍’ GEO数据库如何选择某一数据集中的部分样本进行差异分析呢

在 GEO 数据库中，选择部分样本进行差异分析的方法可能会有所不同，具体取决于您选择的差异分析工具和方法。

一种常用的方法是使用 GEO2R 工具，它是 GEO 数据库的内置差异分析工具，可以让您在线对 GEO 数据进行差异分析。在使用 GEO2R 时，您可以在“Sample Information”页面中选择需要分析的样本。您可以选择多个样本作为组内样本和组间样本，并在“Comparison”页面中设置样本组。GEO2R 会使用 R 包进行差异分析，并为您生成统计学和可视化结果。

另一种方法是使用其他第三方分析工具，如 R/Bioconctor 中的 limma 包，这样就可以编写脚本来读取GEO数据并进行相关操作。首先，您需要使用 GEOquery 包下载数据，然后将数据转换为ExpressionSet对象。接着，您可以使用subset函数来选择需要的样本，并使用 limma 包中的 lmFit 和 eBayes 函数进行差异分析。

无论采用哪种方法，都需要充分考虑样本选择和组设置，以确保差异分析的正确性和可靠性。

此外，在选择样本之前还有其它需要考虑的条件，如样本的来源，采集时间和方式等。这些条件都可能对结果产生影响，因此应当在研究中明确说明。

另外，需要注意数据清洗，如剔除异常值、缺失值等，确保数据质量。

在使用 GEO 数据库进行差异分析时，还需要注意 GEO 数据库中样本的表达量数据通常都是在平均值和标准差之间转换的，如果洞态态要闭首使用其他数据进行比较，需要转换纳源为相同的格式。

阅读全文

与geo数据集怎么找临床信息相关的资料

热点内容

count是什么数据发布：2025-03-07 00:36:49 浏览：726

市场分析中竞争分析怎么写发布：2025-03-07 00:27:38 浏览：339

潍坊冬虫夏草市场在哪里发布：2025-03-07 00:26:03 浏览：25

南京最大的旧货市场有哪些发布：2025-03-07 00:24:38 浏览：803

哪些公司可以进入碳交易市场发布：2025-03-07 00:24:36 浏览：558

数控机怎么测量数据发布：2025-03-07 00:23:55 浏览：135

快件如何代理报关资质发布：2025-03-07 00:17:20 浏览：321

一般的朋友圈的信息怎么删除发布：2025-03-07 00:00:02 浏览：490

如何获取供需数据发布：2025-03-06 23:59:57 浏览：656

舰船科学技术哪个国家最好发布：2025-03-06 23:59:20 浏览：220

tst微商代理怎么赚钱发布：2025-03-06 23:52:49 浏览：127

个股如何交易发布：2025-03-06 23:26:33 浏览：311

论文数据收集怎么写发布：2025-03-06 23:26:26 浏览：508

成都大型的制氢技术公司有哪些发布：2025-03-06 23:20:24 浏览：55

什么是修复保湿产品发布：2025-03-06 23:11:13 浏览：141

春季高考信息技术可以报哪些学校发布：2025-03-06 23:00:35 浏览：814

win10怎么更新显卡驱动程序发布：2025-03-06 22:59:36 浏览：140

福建浦城人才市场在哪里发布：2025-03-06 22:54:04 浏览：511

浇水种果树是在哪个程序发布：2025-03-06 22:48:06 浏览：526

怎么看红鱼吉他技术发布：2025-03-06 22:45:58 浏览：435