导航:首页 > 数据处理 > 测序数据产出量如何控制

测序数据产出量如何控制

发布时间:2023-06-08 08:01:06

① 微生物多样性研究中测序原始数据及其处理方式

1. 原始数据的解释及相关概念

原始数据的概念:

A.测序仪完成测序后生产的测序文件,经过单样品拆分后,获得的单样品测序文件。

B.或者  测序仪测序完成后,由测序仪直接拆分的单样品测序文件。

——我们常常称之为“Rawdata”

原始数据展示(illumina测序平台、Fastq格式文件):

Fastq格式文件:基于文本的,保存生物序列(通常是核酸序列)和其质量信息的标准格式,其实质是一种数据存储格式,其序列以及质量都是使用一个ASCII字符标示,最初有Sanger公司开发,目的是将Fasta序列和质量数据放在一起,目前已经成为高通量测序结果的事实标准。

对于Fastq格式文件内容相关解释:

1)第一行以“@”开头,由文件识别标志和读段名(ID)组成;

2)第二行为碱基序列;

3)第三行以“+” 开头,也是由文件识别标志和读段名(ID)组成,其ID可以省略,但“+”不能省略;

4)第四行是第二行中的序列内容每个碱基所对应的测序质量值。

2.  数据质控

高通量测序下机的原始数据raw reads中存在一些低质量数据、接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节。

数据质控的概念:

将原始数据通过系列步骤(或同时进行)质量控制筛选的过程。

质控筛选后的数据,我们常常称之为“Cleandata”,也称之为“可以进行后续分析的序列”。

因各服务商提供的质控标准会略有不同,但大体包含(但不限于)如下几方面:

  1)通过index提取序列,并作测序质量控制,质量达不到设置要求的去除,将序列与样本对应;

  2)通过overlap完成拼接,去除index序列,overlap长度和错配要达到设置的要求,拼接不上的舍弃;

  3)拼接完成且长度达不到设定要求的舍弃。

?问题:Cleandata(可用于分析的序列)跟最终参与分析的序列数量相等吗?

   我们将在OTU聚类环节给出答案。

3.  原始数据的重要性

原始数据一切数据分析的根本。分析过程文件、结果文件可以丢失,原始数据在,分析结果可以重现;原始数据一旦丢失,分析结果则不可重现; 

原始数据应及时索取或保存。 

获取方式

    1)服务商提供:硬盘、网盘、U盘、邮件等数据载体。

    2)自留保存:硬盘、上传NCBI等数据载体。

文章发表时,均需要上传NCBI,并获得唯一项目号。

② 测序原理:一代二代三代测序原理详解

双脱氧链终止法采用DNA复制原理。 Sanger测序反应体系中包括目标DNA片段、脱氧三磷酸核苷酸(dNTP)、双脱氧三磷酸核苷酸(ddNTP)、测序引物及DNA聚合酶等。 测序反应的核心就是其使用的ddNTP:由于缺少3'-OH基团,不具有与另一个dNTP连接形成磷酸二酯键的能力,这些ddNTP可用来中止DNA链的延伸。此外,这些ddNTP上连接有放射性同位素或荧光标记基团,因此可以被自动化的仪器或凝胶成像系统所检测到。

Roche公司的454技术、illumina公司的Solexa/Hiseq技术和ABI公司的SOLID技术标志第二代测序技术诞生。其中Roche公司的454测序系统是第二代测序技术中第一个商业化运营的测序平台。
其中Illumina市场规模占到75%以上,主要包括Miseq,Hiseq。下面👇就主要介绍它的PE(Pair End双端)测序原理:

名词:
flowcell: 测序反应的载体/容器,1个flowcell有8个lane
lane: 测序反应的平行泳道,试剂添加、洗脱等过程的发生位置
tile: 每次荧光扫描的位置,肉眼是看不到的
双端测序: 可能序列比较长有四五百bp,两边各测120-150bp
junction: 双端闹行测序中间一些没有测到的区域
index(barcode):一个lane通常要测多个样品,每个样品都加上特定的序列标签,用于区分不升橘同样品。
flowcell构造:一个lane包含两列(swath),每一列有60个tile,每个tile会吵弯团种下不同的cluster,每个tile在一次循环中会拍照4次(每个碱基一次)

打断以后会出现末端不平整的情况,用酶补平,所以现在的序列是平末端。
完成补平以后,在3'端使用酶加上一个特异的碱基A,加上A之后就可以利用互补配对的原则,加上adapter,这个adpater可以分成两个部分,一个部分是测序的时候需要用的引物序列,另一部分是建库扩增时候需要用的引物序列。
进行PCR扩增,使得我们的DNA样品浓度足够上机要求。

reads1 与 reads2 不发生重叠

flowcell是用于吸附流动DNA片段的槽道,测序就在此进行。上面构建好的文库中的待测序列事先配置好一定的浓度,经过这里的时候,会在特异的化学试剂作用下,强力随机地附着在lane上,与上面的短序列配对。上样的结果就是lane吸附住了冲过来的DNA,并且可以在表面进行桥式PCR扩增。

双端测序之Forward Strand

为什么Illumina测序会有长度限制呢?

Hiseq2000测序仪
测序仪搭配了两个flowcell,简称双流动槽。比较经典的Hiseq2500一次能产出700-800Gb数据(此处Gb为测序碱基数,不同于字节数的Gb)
数据量=单端reads长度 * 单端reads个数 * 2(PE)
测序深度=数据量大小 / 参考基因组大小

这是一个新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies的纳米孔单分子测序技术为标志,被称之为第三代测序技术。与前两代相比,最大的特点就是单分子测序,测序过程无需进行PCR扩增,超长读长,平均达到10Kb-15Kb,是二代测序技术的100倍以上,值得注意的是在测序过程中这些序列的读长也不再是相等的。

1. https://www.jianshu.com/p/101c14c3a1d2
2. https://zhuanlan.hu.com/p/20702684
3. https://mp.weixin.qq.com/s/tWHWA-f1RnP_XWY66p12pg
4. https://mp.weixin.qq.com/s/9KUY43lD5miLdPZJKgRV0A

阅读全文

与测序数据产出量如何控制相关的资料

热点内容
古董交易怎么算价格 浏览:152
美团热销产品买不了是什么原因 浏览:597
学汽车技术哪个专业比较好 浏览:78
五爱市场是哪个部门提出建设 浏览:207
曹庄子市场怎么去 浏览:778
抖音的大数据怎么看 浏览:611
报到证怎么交到人才市场 浏览:627
哪里有新市场开场开发 浏览:337
宝叶生物技术怎么样 浏览:15
电话手表如何查看微信信息 浏览:99
海鲜批发市场扇贝丁为什么没有鲜甜味道 浏览:531
手机插上电脑怎么没有驱动程序 浏览:593
程序员那么可爱一集多少时间 浏览:307
个人财务代理记账多少钱 浏览:595
市场服务科怎么能减少调整计划 浏览:944
想找个便民市场太原哪里有 浏览:654
去华东城水果市场怎么走更近 浏览:469
代理水果没有季节性水果怎么办 浏览:569
淘宝铜钱怎么交易 浏览:232
三菱m70系统如何看剩余程序 浏览:564