导航:首页 > 数据处理 > 测序数据产出量如何控制

测序数据产出量如何控制

发布时间：2023-06-08 08:01:06

① 微生物多样性研究中测序原始数据及其处理方式

1. 原始数据的解释及相关概念

原始数据的概念：

A.测序仪完成测序后生产的测序文件，经过单样品拆分后，获得的单样品测序文件。

B.或者测序仪测序完成后，由测序仪直接拆分的单样品测序文件。

——我们常常称之为“Rawdata”

原始数据展示(illumina测序平台、Fastq格式文件):

Fastq格式文件：基于文本的，保存生物序列（通常是核酸序列）和其质量信息的标准格式，其实质是一种数据存储格式，其序列以及质量都是使用一个ASCII字符标示，最初有Sanger公司开发，目的是将Fasta序列和质量数据放在一起，目前已经成为高通量测序结果的事实标准。

对于Fastq格式文件内容相关解释：

1）第一行以“@”开头，由文件识别标志和读段名（ID）组成；

2）第二行为碱基序列；

3）第三行以“+” 开头，也是由文件识别标志和读段名（ID）组成，其ID可以省略，但“+”不能省略；

4）第四行是第二行中的序列内容每个碱基所对应的测序质量值。

2. 数据质控

高通量测序下机的原始数据raw reads中存在一些低质量数据、接头以及barcode序列等，为消除其对后续分析准确性产生的影响，在数据下机以后对原始数据进行质控处理就成了至关重要的环节。

数据质控的概念：

将原始数据通过系列步骤（或同时进行）质量控制筛选的过程。

质控筛选后的数据，我们常常称之为“Cleandata”，也称之为“可以进行后续分析的序列”。

因各服务商提供的质控标准会略有不同，但大体包含（但不限于）如下几方面：

1）通过index提取序列，并作测序质量控制，质量达不到设置要求的去除，将序列与样本对应；

2）通过overlap完成拼接，去除index序列，overlap长度和错配要达到设置的要求，拼接不上的舍弃；

3）拼接完成且长度达不到设定要求的舍弃。

？问题：Cleandata（可用于分析的序列）跟最终参与分析的序列数量相等吗？

我们将在OTU聚类环节给出答案。

3. 原始数据的重要性

原始数据一切数据分析的根本。分析过程文件、结果文件可以丢失，原始数据在，分析结果可以重现；原始数据一旦丢失，分析结果则不可重现；

原始数据应及时索取或保存。

获取方式

1）服务商提供：硬盘、网盘、U盘、邮件等数据载体。

2）自留保存：硬盘、上传NCBI等数据载体。

文章发表时，均需要上传NCBI，并获得唯一项目号。

② 测序原理：一代二代三代测序原理详解

双脱氧链终止法采用DNA复制原理。 Sanger测序反应体系中包括目标DNA片段、脱氧三磷酸核苷酸（dNTP）、双脱氧三磷酸核苷酸（ddNTP）、测序引物及DNA聚合酶等。测序反应的核心就是其使用的ddNTP：由于缺少3'-OH基团，不具有与另一个dNTP连接形成磷酸二酯键的能力，这些ddNTP可用来中止DNA链的延伸。此外，这些ddNTP上连接有放射性同位素或荧光标记基团，因此可以被自动化的仪器或凝胶成像系统所检测到。

Roche公司的454技术、illumina公司的Solexa/Hiseq技术和ABI公司的SOLID技术标志第二代测序技术诞生。其中Roche公司的454测序系统是第二代测序技术中第一个商业化运营的测序平台。
其中Illumina市场规模占到75%以上，主要包括Miseq，Hiseq。下面👇就主要介绍它的PE（Pair End双端）测序原理：

名词：
flowcell：测序反应的载体/容器，1个flowcell有8个lane
lane：测序反应的平行泳道，试剂添加、洗脱等过程的发生位置
tile：每次荧光扫描的位置，肉眼是看不到的
双端测序：可能序列比较长有四五百bp，两边各测120-150bp
junction：双端闹行测序中间一些没有测到的区域
index(barcode)：一个lane通常要测多个样品，每个样品都加上特定的序列标签，用于区分不升橘同样品。
flowcell构造：一个lane包含两列（swath），每一列有60个tile，每个tile会吵弯团种下不同的cluster，每个tile在一次循环中会拍照4次（每个碱基一次）

打断以后会出现末端不平整的情况，用酶补平，所以现在的序列是平末端。
完成补平以后，在3'端使用酶加上一个特异的碱基A，加上A之后就可以利用互补配对的原则，加上adapter，这个adpater可以分成两个部分，一个部分是测序的时候需要用的引物序列，另一部分是建库扩增时候需要用的引物序列。
进行PCR扩增，使得我们的DNA样品浓度足够上机要求。

reads1 与 reads2 不发生重叠

flowcell是用于吸附流动DNA片段的槽道，测序就在此进行。上面构建好的文库中的待测序列事先配置好一定的浓度，经过这里的时候，会在特异的化学试剂作用下，强力随机地附着在lane上，与上面的短序列配对。上样的结果就是lane吸附住了冲过来的DNA，并且可以在表面进行桥式PCR扩增。

双端测序之Forward Strand ：

为什么Illumina测序会有长度限制呢？

Hiseq2000测序仪
测序仪搭配了两个flowcell，简称双流动槽。比较经典的Hiseq2500一次能产出700-800Gb数据（此处Gb为测序碱基数，不同于字节数的Gb）
数据量=单端reads长度 * 单端reads个数 * 2（PE)
测序深度=数据量大小 / 参考基因组大小

这是一个新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies的纳米孔单分子测序技术为标志，被称之为第三代测序技术。与前两代相比，最大的特点就是单分子测序，测序过程无需进行PCR扩增，超长读长，平均达到10Kb-15Kb，是二代测序技术的100倍以上，值得注意的是在测序过程中这些序列的读长也不再是相等的。

1. https://www.jianshu.com/p/101c14c3a1d2
2. https://zhuanlan.hu.com/p/20702684
3. https://mp.weixin.qq.com/s/tWHWA-f1RnP_XWY66p12pg
4. https://mp.weixin.qq.com/s/9KUY43lD5miLdPZJKgRV0A

阅读全文

与测序数据产出量如何控制相关的资料

热点内容

古董交易怎么算价格发布：2025-03-09 10:19:27 浏览：152

美团热销产品买不了是什么原因发布：2025-03-09 10:06:53 浏览：597

学汽车技术哪个专业比较好发布：2025-03-09 09:56:05 浏览：78

五爱市场是哪个部门提出建设发布：2025-03-09 09:56:01 浏览：207

曹庄子市场怎么去发布：2025-03-09 09:42:04 浏览：778

抖音的大数据怎么看发布：2025-03-09 09:39:35 浏览：611

报到证怎么交到人才市场发布：2025-03-09 09:30:43 浏览：627

哪里有新市场开场开发发布：2025-03-09 09:25:46 浏览：337

宝叶生物技术怎么样发布：2025-03-09 09:03:00 浏览：15

电话手表如何查看微信信息发布：2025-03-09 08:33:53 浏览：99

海鲜批发市场扇贝丁为什么没有鲜甜味道发布：2025-03-09 08:31:00 浏览：531

手机插上电脑怎么没有驱动程序发布：2025-03-09 08:30:52 浏览：593

程序员那么可爱一集多少时间发布：2025-03-09 08:27:52 浏览：307

个人财务代理记账多少钱发布：2025-03-09 08:27:45 浏览：595

市场服务科怎么能减少调整计划发布：2025-03-09 08:18:24 浏览：944

想找个便民市场太原哪里有发布：2025-03-09 08:18:23 浏览：654

去华东城水果市场怎么走更近发布：2025-03-09 08:13:20 浏览：469

代理水果没有季节性水果怎么办发布：2025-03-09 08:12:02 浏览：569

淘宝铜钱怎么交易发布：2025-03-09 08:01:45 浏览：232

三菱m70系统如何看剩余程序发布：2025-03-09 08:01:42 浏览：564