① 微生物多样性研究中测序原始数据及其处理方式
1. 原始数据的解释及相关概念
原始数据的概念:
A.测序仪完成测序后生产的测序文件,经过单样品拆分后,获得的单样品测序文件。
B.或者 测序仪测序完成后,由测序仪直接拆分的单样品测序文件。
——我们常常称之为“Rawdata”
原始数据展示(illumina测序平台、Fastq格式文件):
Fastq格式文件:基于文本的,保存生物序列(通常是核酸序列)和其质量信息的标准格式,其实质是一种数据存储格式,其序列以及质量都是使用一个ASCII字符标示,最初有Sanger公司开发,目的是将Fasta序列和质量数据放在一起,目前已经成为高通量测序结果的事实标准。
对于Fastq格式文件内容相关解释:
1)第一行以“@”开头,由文件识别标志和读段名(ID)组成;
2)第二行为碱基序列;
3)第三行以“+” 开头,也是由文件识别标志和读段名(ID)组成,其ID可以省略,但“+”不能省略;
4)第四行是第二行中的序列内容每个碱基所对应的测序质量值。
2. 数据质控
高通量测序下机的原始数据raw reads中存在一些低质量数据、接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节。
数据质控的概念:
将原始数据通过系列步骤(或同时进行)质量控制筛选的过程。
质控筛选后的数据,我们常常称之为“Cleandata”,也称之为“可以进行后续分析的序列”。
因各服务商提供的质控标准会略有不同,但大体包含(但不限于)如下几方面:
1)通过index提取序列,并作测序质量控制,质量达不到设置要求的去除,将序列与样本对应;
2)通过overlap完成拼接,去除index序列,overlap长度和错配要达到设置的要求,拼接不上的舍弃;
3)拼接完成且长度达不到设定要求的舍弃。
?问题:Cleandata(可用于分析的序列)跟最终参与分析的序列数量相等吗?
我们将在OTU聚类环节给出答案。
3. 原始数据的重要性
原始数据一切数据分析的根本。分析过程文件、结果文件可以丢失,原始数据在,分析结果可以重现;原始数据一旦丢失,分析结果则不可重现;
原始数据应及时索取或保存。
获取方式
1)服务商提供:硬盘、网盘、U盘、邮件等数据载体。
2)自留保存:硬盘、上传NCBI等数据载体。
文章发表时,均需要上传NCBI,并获得唯一项目号。
② 测序原理:一代二代三代测序原理详解
双脱氧链终止法采用DNA复制原理。 Sanger测序反应体系中包括目标DNA片段、脱氧三磷酸核苷酸(dNTP)、双脱氧三磷酸核苷酸(ddNTP)、测序引物及DNA聚合酶等。 测序反应的核心就是其使用的ddNTP:由于缺少3'-OH基团,不具有与另一个dNTP连接形成磷酸二酯键的能力,这些ddNTP可用来中止DNA链的延伸。此外,这些ddNTP上连接有放射性同位素或荧光标记基团,因此可以被自动化的仪器或凝胶成像系统所检测到。
Roche公司的454技术、illumina公司的Solexa/Hiseq技术和ABI公司的SOLID技术标志第二代测序技术诞生。其中Roche公司的454测序系统是第二代测序技术中第一个商业化运营的测序平台。
其中Illumina市场规模占到75%以上,主要包括Miseq,Hiseq。下面👇就主要介绍它的PE(Pair End双端)测序原理:
名词:
flowcell: 测序反应的载体/容器,1个flowcell有8个lane
lane: 测序反应的平行泳道,试剂添加、洗脱等过程的发生位置
tile: 每次荧光扫描的位置,肉眼是看不到的
双端测序: 可能序列比较长有四五百bp,两边各测120-150bp
junction: 双端闹行测序中间一些没有测到的区域
index(barcode):一个lane通常要测多个样品,每个样品都加上特定的序列标签,用于区分不升橘同样品。
flowcell构造:一个lane包含两列(swath),每一列有60个tile,每个tile会吵弯团种下不同的cluster,每个tile在一次循环中会拍照4次(每个碱基一次)
打断以后会出现末端不平整的情况,用酶补平,所以现在的序列是平末端。
完成补平以后,在3'端使用酶加上一个特异的碱基A,加上A之后就可以利用互补配对的原则,加上adapter,这个adpater可以分成两个部分,一个部分是测序的时候需要用的引物序列,另一部分是建库扩增时候需要用的引物序列。
进行PCR扩增,使得我们的DNA样品浓度足够上机要求。
reads1 与 reads2 不发生重叠
flowcell是用于吸附流动DNA片段的槽道,测序就在此进行。上面构建好的文库中的待测序列事先配置好一定的浓度,经过这里的时候,会在特异的化学试剂作用下,强力随机地附着在lane上,与上面的短序列配对。上样的结果就是lane吸附住了冲过来的DNA,并且可以在表面进行桥式PCR扩增。
双端测序之Forward Strand :
为什么Illumina测序会有长度限制呢?
Hiseq2000测序仪
测序仪搭配了两个flowcell,简称双流动槽。比较经典的Hiseq2500一次能产出700-800Gb数据(此处Gb为测序碱基数,不同于字节数的Gb)
数据量=单端reads长度 * 单端reads个数 * 2(PE)
测序深度=数据量大小 / 参考基因组大小
这是一个新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies的纳米孔单分子测序技术为标志,被称之为第三代测序技术。与前两代相比,最大的特点就是单分子测序,测序过程无需进行PCR扩增,超长读长,平均达到10Kb-15Kb,是二代测序技术的100倍以上,值得注意的是在测序过程中这些序列的读长也不再是相等的。
1. https://www.jianshu.com/p/101c14c3a1d2
2. https://zhuanlan.hu.com/p/20702684
3. https://mp.weixin.qq.com/s/tWHWA-f1RnP_XWY66p12pg
4. https://mp.weixin.qq.com/s/9KUY43lD5miLdPZJKgRV0A