導航:首頁 > 數據處理 > 測序數據產出量如何控制

測序數據產出量如何控制

發布時間:2023-06-08 08:01:06

① 微生物多樣性研究中測序原始數據及其處理方式

1. 原始數據的解釋及相關概念

原始數據的概念:

A.測序儀完成測序後生產的測序文件,經過單樣品拆分後,獲得的單樣品測序文件。

B.或者  測序儀測序完成後,由測序儀直接拆分的單樣品測序文件。

——我們常常稱之為「Rawdata」

原始數據展示(illumina測序平台、Fastq格式文件):

Fastq格式文件:基於文本的,保存生物序列(通常是核酸序列)和其質量信息的標准格式,其實質是一種數據存儲格式,其序列以及質量都是使用一個ASCII字元標示,最初有Sanger公司開發,目的是將Fasta序列和質量數據放在一起,目前已經成為高通量測序結果的事實標准。

對於Fastq格式文件內容相關解釋:

1)第一行以「@」開頭,由文件識別標志和讀段名(ID)組成;

2)第二行為鹼基序列;

3)第三行以「+」 開頭,也是由文件識別標志和讀段名(ID)組成,其ID可以省略,但「+」不能省略;

4)第四行是第二行中的序列內容每個鹼基所對應的測序質量值。

2.  數據質控

高通量測序下機的原始數據raw reads中存在一些低質量數據、接頭以及barcode序列等,為消除其對後續分析准確性產生的影響,在數據下機以後對原始數據進行質控處理就成了至關重要的環節。

數據質控的概念:

將原始數據通過系列步驟(或同時進行)質量控制篩選的過程。

質控篩選後的數據,我們常常稱之為「Cleandata」,也稱之為「可以進行後續分析的序列」。

因各服務商提供的質控標准會略有不同,但大體包含(但不限於)如下幾方面:

  1)通過index提取序列,並作測序質量控制,質量達不到設置要求的去除,將序列與樣本對應;

  2)通過overlap完成拼接,去除index序列,overlap長度和錯配要達到設置的要求,拼接不上的舍棄;

  3)拼接完成且長度達不到設定要求的舍棄。

?問題:Cleandata(可用於分析的序列)跟最終參與分析的序列數量相等嗎?

   我們將在OTU聚類環節給出答案。

3.  原始數據的重要性

原始數據一切數據分析的根本。分析過程文件、結果文件可以丟失,原始數據在,分析結果可以重現;原始數據一旦丟失,分析結果則不可重現; 

原始數據應及時索取或保存。 

獲取方式

    1)服務商提供:硬碟、網盤、U盤、郵件等數據載體。

    2)自留保存:硬碟、上傳NCBI等數據載體。

文章發表時,均需要上傳NCBI,並獲得唯一項目號。

② 測序原理:一代二代三代測序原理詳解

雙脫氧鏈終止法採用DNA復制原理。 Sanger測序反應體系中包括目標DNA片段、脫氧三磷酸核苷酸(dNTP)、雙脫氧三磷酸核苷酸(ddNTP)、測序引物及DNA聚合酶等。 測序反應的核心就是其使用的ddNTP:由於缺少3'-OH基團,不具有與另一個dNTP連接形成磷酸二酯鍵的能力,這些ddNTP可用來中止DNA鏈的延伸。此外,這些ddNTP上連接有放射性同位素或熒游標記基團,因此可以被自動化的儀器或凝膠成像系統所檢測到。

Roche公司的454技術、illumina公司的Solexa/Hiseq技術和ABI公司的SOLID技術標志第二代測序技術誕生。其中Roche公司的454測序系統是第二代測序技術中第一個商業化運營的測序平台。
其中Illumina市場規模佔到75%以上,主要包括Miseq,Hiseq。下面👇就主要介紹它的PE(Pair End雙端)測序原理:

名詞:
flowcell: 測序反應的載體/容器,1個flowcell有8個lane
lane: 測序反應的平行泳道,試劑添加、洗脫等過程的發生位置
tile: 每次熒光掃描的位置,肉眼是看不到的
雙端測序: 可能序列比較長有四五百bp,兩邊各測120-150bp
junction: 雙端鬧行測序中間一些沒有測到的區域
index(barcode):一個lane通常要測多個樣品,每個樣品都加上特定的序列標簽,用於區分不升橘同樣品。
flowcell構造:一個lane包含兩列(swath),每一列有60個tile,每個tile會吵彎團種下不同的cluster,每個tile在一次循環中會拍照4次(每個鹼基一次)

打斷以後會出現末端不平整的情況,用酶補平,所以現在的序列是平末端。
完成補平以後,在3'端使用酶加上一個特異的鹼基A,加上A之後就可以利用互補配對的原則,加上adapter,這個adpater可以分成兩個部分,一個部分是測序的時候需要用的引物序列,另一部分是建庫擴增時候需要用的引物序列。
進行PCR擴增,使得我們的DNA樣品濃度足夠上機要求。

reads1 與 reads2 不發生重疊

flowcell是用於吸附流動DNA片段的槽道,測序就在此進行。上面構建好的文庫中的待測序列事先配置好一定的濃度,經過這里的時候,會在特異的化學試劑作用下,強力隨機地附著在lane上,與上面的短序列配對。上樣的結果就是lane吸附住了沖過來的DNA,並且可以在表面進行橋式PCR擴增。

雙端測序之Forward Strand

為什麼Illumina測序會有長度限制呢?

Hiseq2000測序儀
測序儀搭配了兩個flowcell,簡稱雙流動槽。比較經典的Hiseq2500一次能產出700-800Gb數據(此處Gb為測序鹼基數,不同於位元組數的Gb)
數據量=單端reads長度 * 單端reads個數 * 2(PE)
測序深度=數據量大小 / 參考基因組大小

這是一個新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies的納米孔單分子測序技術為標志,被稱之為第三代測序技術。與前兩代相比,最大的特點就是單分子測序,測序過程無需進行PCR擴增,超長讀長,平均達到10Kb-15Kb,是二代測序技術的100倍以上,值得注意的是在測序過程中這些序列的讀長也不再是相等的。

1. https://www.jianshu.com/p/101c14c3a1d2
2. https://zhuanlan.hu.com/p/20702684
3. https://mp.weixin.qq.com/s/tWHWA-f1RnP_XWY66p12pg
4. https://mp.weixin.qq.com/s/9KUY43lD5miLdPZJKgRV0A

閱讀全文

與測序數據產出量如何控制相關的資料

熱點內容
數據比較多復制是哪個鍵 瀏覽:474
批發市場的東西為什麼這么便宜 瀏覽:896
雪肌麗仁產品怎麼樣 瀏覽:274
怎麼做麥吉麗的代理 瀏覽:497
產品資質證書是什麼 瀏覽:511
百度文庫為什麼下載的是數據 瀏覽:810
快遞信息如何查商家 瀏覽:773
鋪面信息簡介怎麼寫 瀏覽:561
理財基金介紹產品怎麼買 瀏覽:41
代理網店需要哪些手續 瀏覽:273
怎麼樣發信息呢 瀏覽:236
羅布樂思技術困難怎麼回事 瀏覽:822
推薦理財產品客戶問為什麼相信你 瀏覽:470
貴陽葯膏批發市場在哪裡 瀏覽:384
醫療小程序做什麼 瀏覽:670
濰坊去哪裡考察市場 瀏覽:777
手機如何發信息開通粉鑽 瀏覽:29
如何研究交易技術 瀏覽:444
sql數據選項卡在哪裡 瀏覽:886
僱傭別人做微信小程序多少錢 瀏覽:201