① 微生物多樣性研究中測序原始數據及其處理方式
1. 原始數據的解釋及相關概念
原始數據的概念:
A.測序儀完成測序後生產的測序文件,經過單樣品拆分後,獲得的單樣品測序文件。
B.或者 測序儀測序完成後,由測序儀直接拆分的單樣品測序文件。
——我們常常稱之為「Rawdata」
原始數據展示(illumina測序平台、Fastq格式文件):
Fastq格式文件:基於文本的,保存生物序列(通常是核酸序列)和其質量信息的標准格式,其實質是一種數據存儲格式,其序列以及質量都是使用一個ASCII字元標示,最初有Sanger公司開發,目的是將Fasta序列和質量數據放在一起,目前已經成為高通量測序結果的事實標准。
對於Fastq格式文件內容相關解釋:
1)第一行以「@」開頭,由文件識別標志和讀段名(ID)組成;
2)第二行為鹼基序列;
3)第三行以「+」 開頭,也是由文件識別標志和讀段名(ID)組成,其ID可以省略,但「+」不能省略;
4)第四行是第二行中的序列內容每個鹼基所對應的測序質量值。
2. 數據質控
高通量測序下機的原始數據raw reads中存在一些低質量數據、接頭以及barcode序列等,為消除其對後續分析准確性產生的影響,在數據下機以後對原始數據進行質控處理就成了至關重要的環節。
數據質控的概念:
將原始數據通過系列步驟(或同時進行)質量控制篩選的過程。
質控篩選後的數據,我們常常稱之為「Cleandata」,也稱之為「可以進行後續分析的序列」。
因各服務商提供的質控標准會略有不同,但大體包含(但不限於)如下幾方面:
1)通過index提取序列,並作測序質量控制,質量達不到設置要求的去除,將序列與樣本對應;
2)通過overlap完成拼接,去除index序列,overlap長度和錯配要達到設置的要求,拼接不上的舍棄;
3)拼接完成且長度達不到設定要求的舍棄。
?問題:Cleandata(可用於分析的序列)跟最終參與分析的序列數量相等嗎?
我們將在OTU聚類環節給出答案。
3. 原始數據的重要性
原始數據一切數據分析的根本。分析過程文件、結果文件可以丟失,原始數據在,分析結果可以重現;原始數據一旦丟失,分析結果則不可重現;
原始數據應及時索取或保存。
獲取方式
1)服務商提供:硬碟、網盤、U盤、郵件等數據載體。
2)自留保存:硬碟、上傳NCBI等數據載體。
文章發表時,均需要上傳NCBI,並獲得唯一項目號。
② 測序原理:一代二代三代測序原理詳解
雙脫氧鏈終止法採用DNA復制原理。 Sanger測序反應體系中包括目標DNA片段、脫氧三磷酸核苷酸(dNTP)、雙脫氧三磷酸核苷酸(ddNTP)、測序引物及DNA聚合酶等。 測序反應的核心就是其使用的ddNTP:由於缺少3'-OH基團,不具有與另一個dNTP連接形成磷酸二酯鍵的能力,這些ddNTP可用來中止DNA鏈的延伸。此外,這些ddNTP上連接有放射性同位素或熒游標記基團,因此可以被自動化的儀器或凝膠成像系統所檢測到。
Roche公司的454技術、illumina公司的Solexa/Hiseq技術和ABI公司的SOLID技術標志第二代測序技術誕生。其中Roche公司的454測序系統是第二代測序技術中第一個商業化運營的測序平台。
其中Illumina市場規模佔到75%以上,主要包括Miseq,Hiseq。下面👇就主要介紹它的PE(Pair End雙端)測序原理:
名詞:
flowcell: 測序反應的載體/容器,1個flowcell有8個lane
lane: 測序反應的平行泳道,試劑添加、洗脫等過程的發生位置
tile: 每次熒光掃描的位置,肉眼是看不到的
雙端測序: 可能序列比較長有四五百bp,兩邊各測120-150bp
junction: 雙端鬧行測序中間一些沒有測到的區域
index(barcode):一個lane通常要測多個樣品,每個樣品都加上特定的序列標簽,用於區分不升橘同樣品。
flowcell構造:一個lane包含兩列(swath),每一列有60個tile,每個tile會吵彎團種下不同的cluster,每個tile在一次循環中會拍照4次(每個鹼基一次)
打斷以後會出現末端不平整的情況,用酶補平,所以現在的序列是平末端。
完成補平以後,在3'端使用酶加上一個特異的鹼基A,加上A之後就可以利用互補配對的原則,加上adapter,這個adpater可以分成兩個部分,一個部分是測序的時候需要用的引物序列,另一部分是建庫擴增時候需要用的引物序列。
進行PCR擴增,使得我們的DNA樣品濃度足夠上機要求。
reads1 與 reads2 不發生重疊
flowcell是用於吸附流動DNA片段的槽道,測序就在此進行。上面構建好的文庫中的待測序列事先配置好一定的濃度,經過這里的時候,會在特異的化學試劑作用下,強力隨機地附著在lane上,與上面的短序列配對。上樣的結果就是lane吸附住了沖過來的DNA,並且可以在表面進行橋式PCR擴增。
雙端測序之Forward Strand :
為什麼Illumina測序會有長度限制呢?
Hiseq2000測序儀
測序儀搭配了兩個flowcell,簡稱雙流動槽。比較經典的Hiseq2500一次能產出700-800Gb數據(此處Gb為測序鹼基數,不同於位元組數的Gb)
數據量=單端reads長度 * 單端reads個數 * 2(PE)
測序深度=數據量大小 / 參考基因組大小
這是一個新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies的納米孔單分子測序技術為標志,被稱之為第三代測序技術。與前兩代相比,最大的特點就是單分子測序,測序過程無需進行PCR擴增,超長讀長,平均達到10Kb-15Kb,是二代測序技術的100倍以上,值得注意的是在測序過程中這些序列的讀長也不再是相等的。
1. https://www.jianshu.com/p/101c14c3a1d2
2. https://zhuanlan.hu.com/p/20702684
3. https://mp.weixin.qq.com/s/tWHWA-f1RnP_XWY66p12pg
4. https://mp.weixin.qq.com/s/9KUY43lD5miLdPZJKgRV0A