导航:首页 > 数据处理 > 测序数据产出量如何控制

测序数据产出量如何控制

发布时间:2023-06-08 08:01:06

① 微生物多样性研究中测序原始数据及其处理方式

1. 原始数据的解释及相关概念

原始数据的概念:

A.测序仪完成测序后生产的测序文件,经过单样品拆分后,获得的单样品测序文件。

B.或者  测序仪测序完成后,由测序仪直接拆分的单样品测序文件。

——我们常常称之为“Rawdata”

原始数据展示(illumina测序平台、Fastq格式文件):

Fastq格式文件:基于文本的,保存生物序列(通常是核酸序列)和其质量信息的标准格式,其实质是一种数据存储格式,其序列以及质量都是使用一个ASCII字符标示,最初有Sanger公司开发,目的是将Fasta序列和质量数据放在一起,目前已经成为高通量测序结果的事实标准。

对于Fastq格式文件内容相关解释:

1)第一行以“@”开头,由文件识别标志和读段名(ID)组成;

2)第二行为碱基序列;

3)第三行以“+” 开头,也是由文件识别标志和读段名(ID)组成,其ID可以省略,但“+”不能省略;

4)第四行是第二行中的序列内容每个碱基所对应的测序质量值。

2.  数据质控

高通量测序下机的原始数据raw reads中存在一些低质量数据、接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节。

数据质控的概念:

将原始数据通过系列步骤(或同时进行)质量控制筛选的过程。

质控筛选后的数据,我们常常称之为“Cleandata”,也称之为“可以进行后续分析的序列”。

因各服务商提供的质控标准会略有不同,但大体包含(但不限于)如下几方面:

  1)通过index提取序列,并作测序质量控制,质量达不到设置要求的去除,将序列与样本对应;

  2)通过overlap完成拼接,去除index序列,overlap长度和错配要达到设置的要求,拼接不上的舍弃;

  3)拼接完成且长度达不到设定要求的舍弃。

?问题:Cleandata(可用于分析的序列)跟最终参与分析的序列数量相等吗?

   我们将在OTU聚类环节给出答案。

3.  原始数据的重要性

原始数据一切数据分析的根本。分析过程文件、结果文件可以丢失,原始数据在,分析结果可以重现;原始数据一旦丢失,分析结果则不可重现; 

原始数据应及时索取或保存。 

获取方式

    1)服务商提供:硬盘、网盘、U盘、邮件等数据载体。

    2)自留保存:硬盘、上传NCBI等数据载体。

文章发表时,均需要上传NCBI,并获得唯一项目号。

② 测序原理:一代二代三代测序原理详解

双脱氧链终止法采用DNA复制原理。 Sanger测序反应体系中包括目标DNA片段、脱氧三磷酸核苷酸(dNTP)、双脱氧三磷酸核苷酸(ddNTP)、测序引物及DNA聚合酶等。 测序反应的核心就是其使用的ddNTP:由于缺少3'-OH基团,不具有与另一个dNTP连接形成磷酸二酯键的能力,这些ddNTP可用来中止DNA链的延伸。此外,这些ddNTP上连接有放射性同位素或荧光标记基团,因此可以被自动化的仪器或凝胶成像系统所检测到。

Roche公司的454技术、illumina公司的Solexa/Hiseq技术和ABI公司的SOLID技术标志第二代测序技术诞生。其中Roche公司的454测序系统是第二代测序技术中第一个商业化运营的测序平台。
其中Illumina市场规模占到75%以上,主要包括Miseq,Hiseq。下面👇就主要介绍它的PE(Pair End双端)测序原理:

名词:
flowcell: 测序反应的载体/容器,1个flowcell有8个lane
lane: 测序反应的平行泳道,试剂添加、洗脱等过程的发生位置
tile: 每次荧光扫描的位置,肉眼是看不到的
双端测序: 可能序列比较长有四五百bp,两边各测120-150bp
junction: 双端闹行测序中间一些没有测到的区域
index(barcode):一个lane通常要测多个样品,每个样品都加上特定的序列标签,用于区分不升橘同样品。
flowcell构造:一个lane包含两列(swath),每一列有60个tile,每个tile会吵弯团种下不同的cluster,每个tile在一次循环中会拍照4次(每个碱基一次)

打断以后会出现末端不平整的情况,用酶补平,所以现在的序列是平末端。
完成补平以后,在3'端使用酶加上一个特异的碱基A,加上A之后就可以利用互补配对的原则,加上adapter,这个adpater可以分成两个部分,一个部分是测序的时候需要用的引物序列,另一部分是建库扩增时候需要用的引物序列。
进行PCR扩增,使得我们的DNA样品浓度足够上机要求。

reads1 与 reads2 不发生重叠

flowcell是用于吸附流动DNA片段的槽道,测序就在此进行。上面构建好的文库中的待测序列事先配置好一定的浓度,经过这里的时候,会在特异的化学试剂作用下,强力随机地附着在lane上,与上面的短序列配对。上样的结果就是lane吸附住了冲过来的DNA,并且可以在表面进行桥式PCR扩增。

双端测序之Forward Strand

为什么Illumina测序会有长度限制呢?

Hiseq2000测序仪
测序仪搭配了两个flowcell,简称双流动槽。比较经典的Hiseq2500一次能产出700-800Gb数据(此处Gb为测序碱基数,不同于字节数的Gb)
数据量=单端reads长度 * 单端reads个数 * 2(PE)
测序深度=数据量大小 / 参考基因组大小

这是一个新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies的纳米孔单分子测序技术为标志,被称之为第三代测序技术。与前两代相比,最大的特点就是单分子测序,测序过程无需进行PCR扩增,超长读长,平均达到10Kb-15Kb,是二代测序技术的100倍以上,值得注意的是在测序过程中这些序列的读长也不再是相等的。

1. https://www.jianshu.com/p/101c14c3a1d2
2. https://zhuanlan.hu.com/p/20702684
3. https://mp.weixin.qq.com/s/tWHWA-f1RnP_XWY66p12pg
4. https://mp.weixin.qq.com/s/9KUY43lD5miLdPZJKgRV0A

阅读全文

与测序数据产出量如何控制相关的资料

热点内容
贵阳药膏批发市场在哪里 浏览:384
医疗小程序做什么 浏览:670
潍坊去哪里考察市场 浏览:777
手机如何发信息开通粉钻 浏览:29
如何研究交易技术 浏览:444
sql数据选项卡在哪里 浏览:886
雇佣别人做微信小程序多少钱 浏览:200
恒泰证券怎么开通转债交易 浏览:539
县城没有顺丰快递代理怎么样 浏览:177
空分技术学院有什么专业 浏览:981
北京旅游机票代理怎么联系 浏览:409
旧货市场上哪里有旧空调卖 浏览:490
执行监理监督程序是什么 浏览:227
天津银行股票如何交易 浏览:467
模型怎么招代理拿货 浏览:334
雷赛伺服怎么保存数据 浏览:902
草坪剪纸技术有哪些 浏览:474
创新城股票做事交易如何挂档 浏览:764
qq怎么屏蔽人发信息 浏览:333
临沧兰瑞莎代理多少钱一盒 浏览:501