導航:首頁 > 數據處理 > 測序數據產出量如何控制

測序數據產出量如何控制

發布時間：2023-06-08 08:01:06

① 微生物多樣性研究中測序原始數據及其處理方式

1. 原始數據的解釋及相關概念

原始數據的概念：

A.測序儀完成測序後生產的測序文件，經過單樣品拆分後，獲得的單樣品測序文件。

B.或者測序儀測序完成後，由測序儀直接拆分的單樣品測序文件。

——我們常常稱之為「Rawdata」

原始數據展示(illumina測序平台、Fastq格式文件):

Fastq格式文件：基於文本的，保存生物序列（通常是核酸序列）和其質量信息的標准格式，其實質是一種數據存儲格式，其序列以及質量都是使用一個ASCII字元標示，最初有Sanger公司開發，目的是將Fasta序列和質量數據放在一起，目前已經成為高通量測序結果的事實標准。

對於Fastq格式文件內容相關解釋：

1）第一行以「@」開頭，由文件識別標志和讀段名（ID）組成；

2）第二行為鹼基序列；

3）第三行以「+」開頭，也是由文件識別標志和讀段名（ID）組成，其ID可以省略，但「+」不能省略；

4）第四行是第二行中的序列內容每個鹼基所對應的測序質量值。

2. 數據質控

高通量測序下機的原始數據raw reads中存在一些低質量數據、接頭以及barcode序列等，為消除其對後續分析准確性產生的影響，在數據下機以後對原始數據進行質控處理就成了至關重要的環節。

數據質控的概念：

將原始數據通過系列步驟（或同時進行）質量控制篩選的過程。

質控篩選後的數據，我們常常稱之為「Cleandata」，也稱之為「可以進行後續分析的序列」。

因各服務商提供的質控標准會略有不同，但大體包含（但不限於）如下幾方面：

1）通過index提取序列，並作測序質量控制，質量達不到設置要求的去除，將序列與樣本對應；

2）通過overlap完成拼接，去除index序列，overlap長度和錯配要達到設置的要求，拼接不上的舍棄；

3）拼接完成且長度達不到設定要求的舍棄。

？問題：Cleandata（可用於分析的序列）跟最終參與分析的序列數量相等嗎？

我們將在OTU聚類環節給出答案。

3. 原始數據的重要性

原始數據一切數據分析的根本。分析過程文件、結果文件可以丟失，原始數據在，分析結果可以重現；原始數據一旦丟失，分析結果則不可重現；

原始數據應及時索取或保存。

獲取方式

1）服務商提供：硬碟、網盤、U盤、郵件等數據載體。

2）自留保存：硬碟、上傳NCBI等數據載體。

文章發表時，均需要上傳NCBI，並獲得唯一項目號。

② 測序原理：一代二代三代測序原理詳解

雙脫氧鏈終止法採用DNA復制原理。 Sanger測序反應體系中包括目標DNA片段、脫氧三磷酸核苷酸（dNTP）、雙脫氧三磷酸核苷酸（ddNTP）、測序引物及DNA聚合酶等。測序反應的核心就是其使用的ddNTP：由於缺少3'-OH基團，不具有與另一個dNTP連接形成磷酸二酯鍵的能力，這些ddNTP可用來中止DNA鏈的延伸。此外，這些ddNTP上連接有放射性同位素或熒游標記基團，因此可以被自動化的儀器或凝膠成像系統所檢測到。

Roche公司的454技術、illumina公司的Solexa/Hiseq技術和ABI公司的SOLID技術標志第二代測序技術誕生。其中Roche公司的454測序系統是第二代測序技術中第一個商業化運營的測序平台。
其中Illumina市場規模佔到75%以上，主要包括Miseq，Hiseq。下面👇就主要介紹它的PE（Pair End雙端）測序原理：

名詞：
flowcell：測序反應的載體/容器，1個flowcell有8個lane
lane：測序反應的平行泳道，試劑添加、洗脫等過程的發生位置
tile：每次熒光掃描的位置，肉眼是看不到的
雙端測序：可能序列比較長有四五百bp，兩邊各測120-150bp
junction：雙端鬧行測序中間一些沒有測到的區域
index(barcode)：一個lane通常要測多個樣品，每個樣品都加上特定的序列標簽，用於區分不升橘同樣品。
flowcell構造：一個lane包含兩列（swath），每一列有60個tile，每個tile會吵彎團種下不同的cluster，每個tile在一次循環中會拍照4次（每個鹼基一次）

打斷以後會出現末端不平整的情況，用酶補平，所以現在的序列是平末端。
完成補平以後，在3'端使用酶加上一個特異的鹼基A，加上A之後就可以利用互補配對的原則，加上adapter，這個adpater可以分成兩個部分，一個部分是測序的時候需要用的引物序列，另一部分是建庫擴增時候需要用的引物序列。
進行PCR擴增，使得我們的DNA樣品濃度足夠上機要求。

reads1 與 reads2 不發生重疊

flowcell是用於吸附流動DNA片段的槽道，測序就在此進行。上面構建好的文庫中的待測序列事先配置好一定的濃度，經過這里的時候，會在特異的化學試劑作用下，強力隨機地附著在lane上，與上面的短序列配對。上樣的結果就是lane吸附住了沖過來的DNA，並且可以在表面進行橋式PCR擴增。

雙端測序之Forward Strand ：

為什麼Illumina測序會有長度限制呢？

Hiseq2000測序儀
測序儀搭配了兩個flowcell，簡稱雙流動槽。比較經典的Hiseq2500一次能產出700-800Gb數據（此處Gb為測序鹼基數，不同於位元組數的Gb）
數據量=單端reads長度 * 單端reads個數 * 2（PE)
測序深度=數據量大小 / 參考基因組大小

這是一個新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies的納米孔單分子測序技術為標志，被稱之為第三代測序技術。與前兩代相比，最大的特點就是單分子測序，測序過程無需進行PCR擴增，超長讀長，平均達到10Kb-15Kb，是二代測序技術的100倍以上，值得注意的是在測序過程中這些序列的讀長也不再是相等的。

1. https://www.jianshu.com/p/101c14c3a1d2
2. https://zhuanlan.hu.com/p/20702684
3. https://mp.weixin.qq.com/s/tWHWA-f1RnP_XWY66p12pg
4. https://mp.weixin.qq.com/s/9KUY43lD5miLdPZJKgRV0A

閱讀全文

與測序數據產出量如何控制相關的資料

熱點內容

公司上市總代理商有什麼好處發布：2025-04-02 05:43:50 瀏覽：624

交易貓為什麼一直要給錢發布：2025-04-02 04:14:39 瀏覽：412

uk里燈具產品屬於什麼賦碼發布：2025-04-02 03:50:45 瀏覽：818

新手做批發去哪個市場拿貨比較好發布：2025-04-02 03:39:56 瀏覽：653

代理提成機制怎麼做發布：2025-04-02 02:47:06 瀏覽：428

車輛電話標牌需要哪些信息發布：2025-04-02 02:34:17 瀏覽：866

漳州哪裡有粉彩交易發布：2025-04-02 01:00:41 瀏覽：342

如何更改數據線設置發布：2025-04-02 00:33:31 瀏覽：297

三個分段函數的程序如何編寫發布：2025-04-02 00:23:54 瀏覽：262

族譜信息採集需要哪些信息發布：2025-04-01 23:47:15 瀏覽：739

太倉有什麼旅遊產品發布：2025-04-01 23:45:53 瀏覽：130

發什麼信息可以讓蘋果系統崩潰發布：2025-04-01 23:28:39 瀏覽：88

網路商城是怎麼采購產品發布：2025-04-01 23:27:07 瀏覽：753

南充軟體技術學院怎麼樣發布：2025-04-01 23:25:32 瀏覽：547

高電壓技術分壓比是什麼發布：2025-04-01 23:22:31 瀏覽：421

餐飲代理怎麼營銷發布：2025-04-01 22:56:49 瀏覽：366

冷凍復活技術要多少錢發布：2025-04-01 22:15:50 瀏覽：281

律師不做風險代理是什麼原因發布：2025-04-01 22:10:32 瀏覽：238

蒼山毛線市場在什麼地方發布：2025-04-01 22:08:30 瀏覽：470

招標技術措施怎麼寫發布：2025-04-01 22:03:26 瀏覽：140