『壹』 怎樣檢查基因組注釋結果的可靠性
基因組注釋主要包括四個研究方向:重復序列的識別;非編碼RNA的預測;基因結構預測和基因功能注釋。我們將分別對這四個領域進行闡述。
1:重復序列的識別。
重復序列的研究背景和意義:重復序列可分為串聯重復序列(Tendam repeat)和散在重復序列(Interpersed repeat)兩大類。其中串聯重復序列包括有微衛星序列,小衛星序列等等;散在重復序列又稱轉座子元件,包括以DNA-DNA方式轉座的DNA轉座子和反轉錄轉座子(retrotransposon)。常見的反轉錄轉座子類別有LTR,LINE和SINE等。
重復序列識別的發展現狀:目前,識別重復序列和轉座子的方法為序列比對和從頭預測兩類。序列比對方法一般採用Repeatmasker軟體,識別與已知重復序列相似的序列,並對其進行分類。常用Repbase重復序列資料庫。從頭預測方法則是利用重復序列或轉座子自身的序列或結構特徵構建從頭預測演算法或軟體對序列進行識別。從頭預測方法的優點在於能夠根據轉座子元件自身的結構特徵進行預測,不依賴於已有的轉座子資料庫,能夠發現未知的轉座子元件。常見的從頭預測方法有Recon,Piler,Repeatscout,LTR-finder,ReAS等等。
重復序列識別的研究內容:獲得組裝好的基因組序列後,我們首先預測基因組中的重復序列和轉座子元件。一方面,我們採用RepeatScout、LTR-finder、Tendem Repeat Finder、Repeatmoderler、Piler等從頭預測軟體預測重復序列。為了獲得從頭預測方法得到的重復序列的類別信息,我們把這些序列與Repbase資料庫比對,將能夠歸類的重復序列進行分類。另一方面,我們利用Repeatmasker識別與已知重復序列相似的重復序列或蛋白質序列。通過構建Repbase資料庫在DNA水平和蛋白質水平的重復序列,Repeatmasker能夠分別識別在DNA水平和蛋白質水平重復的序列,提高了識別率。
重復序列識別的關鍵技術難點:
1):第二代測序技術測基因組,有成本低、速度快等優點。但是由於目前產生的讀長(reads)較短。由於基因組序列採用kmer演算法進行組裝,高度相似的重復序列可能會被壓縮到一起,影響對後續的重復序列識別。
2):某些高度重復的序列用現有的組裝方法難以組裝出來,成為未組裝reads(unassembled reads)。有必要同時分析未組裝reads以得到更為完整的重復序列分布圖。之前,華大已開發了ReAS軟體,專門用於識別未組裝reads中的重復序列。但該軟體目前只能處理傳統測序技術(如sanger測序)生成的較長片段的reads,需要進一步改進方可用於分析第二代測序技術得到的reads。同時,未組裝的短片段reads重復度更高,識別其重復區域具有較大難度。
重復序列識別的研究方向:
1):整合現有的重復序列預測方法,對組裝好的基因組序列進行分析。
2):綜合考慮並結合短序列組裝策略,校正重復序列識別的結果。
3):開發識別未組裝reads重復序列的演算法和流程並構建一致性序列。
2:非編碼RNA序列的預測。
非編碼RNA預測的研究背景和意義:非編碼RNA,指的是不被翻譯成蛋白質的RNA,如tRNA, rRNA等,這些RNA不被翻譯成蛋白質,但是具有重要的生物學功能。miRNA結合其靶向基因的mRNA序列結合,將mRNA降解或抑制其翻譯成蛋白質,具有沉默基因的功能。tRNA (轉運RNA)攜帶氨基酸進入核糖體,使之在mRNA指導下合成蛋白質。rRNA(核糖體RNA)與蛋白質結合形成核糖體,其功能是作為mRNA的支架,提供mRNA翻譯成蛋白質的場所。snRNA(小核RNA)主要參與RNA前體的加工過程,是RNA剪切體的主要成分。
非編碼RNA預測的發展現狀:由於ncRNA種類繁多,特徵各異,缺少編碼蛋白質的基因所具有的典型特徵,現有的ncRNA預測軟體一般專注於搜索單一種類的ncRNA,如tRNAScan-SE 搜索tRNA、snoScan 搜索帶C/D盒的snoRNAs、SnoGps 搜索帶H/ACA 盒的snoRNAs、mirScan 搜索microRNA等等。Sanger實驗室開發了Infernal軟體,建立了1600多個RNA家族,並對每個家族建立了一致性二級結構和協方差模型,形成了Rfam資料庫。採用Rfam資料庫中的每個RNA的協方差模型,結合Infernal軟體可以預測出已有RNA家族的新成員。Rfam/Infernal方法應用廣泛,可以預測各種RNA家族成員,但是特異性較差。我們建議:如果有更好的專門預測某一類非編碼RNA的軟體,那麼採用該軟體進行預測;否則,使用Rfam/Infernal流程。
非編碼RNA預測的研究內容:利用Rfam家族的協方差模型,我們採用Rfam自帶的Infernal軟體預測miRNA和snRNA序列。由於rRNA的保守性很強,為此我們用序列比對已知的rRNA序列,識別基因組中的rRNA序列。tRNAscan-SE工具中綜合了多個識別和分析程序,通過分析啟動子元件的保守序列模式、tRNA二級結構的分析、轉錄控制元件分析和除去絕大多數假陽性的篩選過程,據稱能識別99%的真tRNA基因。
非編碼RNA預測中擬解決的關鍵技術難點:
識別非編碼RNA的假基因:基因組中很多序列由非編碼RNA基因復制而來,與非編碼RNA基因序列相似,但不具有非編碼RNA的功能。目前我們採用的非編碼RNA序列的預測方法都是基於序列比對和結構預測,不能夠很好的去除這類非編碼RNA的假基因。針對這個問題,我們考慮結合RNA表達信息如RNA-seq數據進行篩選。
非編碼RNA預測的研究方向:
1):專門檢測小片段RNA序列的方法現在已經得到廣泛應用,利用小片段RNA序列數據進行非編碼RNA的預測是我們的重要研究方向。
2):開發miRNA靶向基因預測流程:miRNA通過調控其靶向基因的mRNA穩定性或翻譯來控制生命活動的進程。預測miRNA靶向基因能夠給我們研究miRNA功能帶來提示。由於miRNA在動物和植物中對靶向基因的調控機制差別較大,我們建議對動物和植物分別建立靶向基因預測流程,提高預測准確度。
3:基因結構預測。
基因結構預測的研究背景和意義:通過基因結構預測,我們能夠獲得基因組詳細的基因分布和結構信息,也將為功能注釋和進化分析工作提供重要的原料。基因結構預測包括預測基因組中的基因位點、開放性閱讀框架(ORF)、翻譯起始位點和終止位點、內含子和外顯子區域、啟動子、可變剪切位點以及蛋白質編碼序列等等。
基因結構預測的發展現狀: 原核生物基因的各種信號位點(如啟動子和終止子信號位點)特異性較強且容易識別,因此相應的基因預測方法已經基本成熟。Glimmer是應用最為廣泛的原核生物基因結構預測軟體,准確度高。而真核生物的基因預測工作的難度則大為增加。首先,真核生物中的啟動子和終止子等信號位點更為復雜,難以識別。其次,真核生物中廣泛存在可變剪切現象,使外顯子和內含子的定位更為困難。因此,預測真核生物的基因結構需要運用更為復雜的演算法,常用的有隱馬爾科夫模型等。常用的軟體有Genscan、SNAP、GeneMark、Twinscan等。
基因結構預測的研究內容:基因結構預測主要通過序列比對結合從頭預測方法進行。序列比對方法採用blat和pasa等比對方法,將基因組序列與外部數據進行比對,以找到可能的基因位置信息。常用的數據包括物種自身或其近緣物種的蛋白質序列、EST序列、全長cDNA序列、unigene序列等等。這種方法對數據的依賴性很高,並且在選擇數據的同時要充分考慮到物種之間的親緣關系和進化距離。基因從頭預測方法則是通過搜索基因組中的重要信號位點進行的。常用的軟體有Genscan、SNAP、Augustus、Glimmer、GlimmerHMM等等。同時採用多種方法進行基因預測將產生眾多結果,因此最後需要對結果進行整合以得到基因的一致性序列。常用軟體有Glean,EVM等。
基因結構預測中擬解決的關鍵技術難點:
目前,真核生物的基因結構預測方法仍有較大改進空間,主要面臨以下的技術難點。
1):如何利用現有的數據和演算法,更好地識別基因的可變性剪切位點。
2):隨著測序工作的進展,許多目前研究較少的物種也將提上測序日程。大多基因結構的從頭預測演算法需要預先訓練預測參數。現有資源和數據稀缺的物種將很難獲得預測參數。
3):克服組裝錯誤對基因結果預測的影響
4):建立基因結構預測的評價系統。
可變性剪切位點的預測較為困難。如何結合RNA-seq數據進行可變剪切預測將是重要的工作方向和難點。
基因結構預測的研究方向:
1):利用RNA-seq、EST等數據校正基因結構預測結果,識別可變剪切位點。
2):對於研究較少的物種,建議利用近緣物種的同源基因數據以訓練基因結構預測軟體。
3):利用同源基因組之間的共線性信息,輔助基因結構預測。
4:基因功能注釋。
基因功能注釋的研究背景和意義:獲得基因結構信息後,我們希望能夠進一步獲得基因的功能信息。基因功能注釋方向包括預測基因中的模序和結構域、蛋白質的功能和所在的生物學通路等。
基因功能注釋的發展現狀:全基因組測序將產生大量數據,而實驗方法由於成本較高,不適用於全基因組測序的後續功能分析。為此,目前普遍採用比對方法對全基因組測序的基因功能進行注釋。KEGG和Gene Ontology是目前使用最為廣泛的蛋白質功能資料庫,分別對蛋白質的生物學通路和功能進行注釋。Interpro通過整合多個記錄蛋白質特徵的資料庫,根據蛋白質序列或結構中的特徵對蛋白質進行分類。
基因功能注釋的研究內容:目前,我們利用四個常用的資料庫進行基因功能注釋。使用的資料庫有Uniprot蛋白質序列資料庫、KEGG生物學通路資料庫、Interpro蛋白質家族資料庫和Gene Ontology基因功能注釋資料庫。
1):與Uniprot蛋白質序列資料庫比對,獲得序列的初步信息。
2):與KEGG資料庫比對,預測蛋白質可能具有的生物學通路信息。
3):與Interpro資料庫比對將獲得蛋白質的保守性序列,模序和結構域等。
4):預測蛋白質的功能。Interpro進一步建立了與Gene Ontology的交互系統:Interpro2GO。該系統記錄了每個蛋白質家族與Gene Ontology中的功能節點的對應關系,我們通過此系統便能預測蛋白質執行的生物學功能。
基因功能注釋中擬解決的關鍵技術難點:
目前我們的功能注釋工作是建立在比對的基礎上,這將會帶來兩個比較大的問題。首先,此方法嚴重依賴於外部數據,對某些研究較少的物種限制很大。其次,序列相似並不表示實際生物學功能相似,考慮引入序列比對之外的方法,進一步完善基因功能注釋工作。
基因功能注釋的研究方向:考慮引入序列比對之外的數據(如蛋白質互作網路、基因表達譜等),利用概率模型演算法進行整合,完善基因功能注釋工作。
『貳』 什麼是生物中心法則
是指遺傳信息從DNA傳遞給RNA,再從RNA傳遞給蛋白質,即完成遺傳信息的轉錄和翻譯的過程。也可以從DNA傳遞給DNA,即完成DNA的復制過程。這是所有有細胞結構的生物所遵循的法則。在某些病毒中的RNA自我復制(如煙草花葉病毒等)和在某些病毒中能以RNA為模板逆轉錄成DNA的過程(某些致癌病毒)是對中心法則的補充。
『叄』 詳細介紹雙序列比對、blast 以及多序列比對的區別,以及均適用於哪些場 景
序列比對是將兩個或多個序列排列在一起,標明其相似之處。使用間隔表示未比對上,比對上的相同或相似的符號排列在同一列上。序列比對是生物信息學以及基因組學與進化的基礎之一,其基本思想是:在生物學中普遍存在的序列決定結構、結構決定功能的規律,通過將核酸序列或者蛋白質序列的一級結構看成由基本字元構成的字元串,通過序列比對我們可以找到相似的序列並由此發現生物序列中的功能、結構和進化信息。
全局比對:全局比對是指將參與比對的兩條序列裡面的所有字元進行比對。全局比對在全局范圍內對兩條序列進行比對打分,找出最佳比對,主要被用來尋找關系密切的序列。其可以用來鑒別或證明新序列與已知序列家族的同源性,是進行分子進化分析的重要前提。其代表是Needleman-Wunsch演算法。
局部比對:與全局比對不同,局部比對不必對兩個完整的序列進行比對,而是在每個序列中使用某些局部區域片段進行比對。其產生的需求在於、人們發現有的蛋白序列雖然在序列整體上表現出較大的差異性,但是在某些局部區域能獨立的發揮相同的功能,序列相當保守。這時候依靠全局比對明顯不能得到這些局部相似序列的。其次,在真核生物的基因中,內含子片段表現出了極大變異性,外顯子區域卻較為保守,這時候全局比對表現出了其局限性,無法找出這些局部相似性序列。其代表是Smith-Waterman局部比對演算法。
雙重序列比對:雙序列比對是指對兩條序列M和N進行比對,找到其相似性關系,這種尋找生物序列相似性關系的過程被稱為雙序列比對。其演算法可以主要分成基於全局比對的Needleman-Wunsch演算法和基於局部比對的Smith-Waterman局部比對演算法
多重序列比對:多序列比對是雙序列比對推廣,即把兩個以上字元序列對齊,逐列比較其字元的異同,使得每一列字元盡可能一致,以發現其共同的結構特徵的方法稱為多序列比對。多序列比對演算法可以分成漸進法和同步法。其可以發現不同的序列之間的相似部分,從而推斷它們在結構和功能上的相似關系,主要用於分子進化關系,預測蛋白質的二級結構和三級結構、估計蛋白質折疊類型的總數,基因組序列分析等。
基因組比對:是多序列比對的一種特例,指對基因組范圍內的序列信息進行比對的過程。通過對不同親緣關系物種的基因組序列進行比較,能夠鑒定出編碼序列、非編碼調控序列及給定物種獨有的序列。而基因組范圍之內的序列比對,可以了解不同物在核苷酸組成、同線性關系和基因順序方面的異同,進而得到基因分析預測與定位、生物系統發生進化關系等方面的信息。
BLAST:BLAST[1](Basic Local Alignment Search Tool)是在在1990年由Altschul等人提出的雙序列局部比對演算法,是一套在蛋白質資料庫或DNA資料庫中進行相似性比較的分析工具。BLAST是一種啟發式演算法,用於在大型資料庫中尋找比對序列,是一種在局部比對基礎上的近似比對演算法,可以在保持較高精度的情況下大大減少程序運行的時間。
演算法思想描述:
雙重序列比對主要分成以Needleman-Wunsch演算法為代表的全局比對和以Smith-Waterman局部比對演算法為代表的局部比對,BLAST是局部比對的一種推廣。多重比對演算法可以主要分成動態規劃演算法、隨機演算法、迭代法和漸進比對演算法。
(1)雙重序列比對:
Needleman-Wunsch演算法:該演算法是基於動態規劃思想的全局比對的基本演算法,動態規劃的比對演算法的比對過程可以用一個以序列S為列,T為行的(m+1)×(n+1)的二維矩陣來表示,用
sigma表示置換矩陣。
在計算完矩陣後,從矩陣的右下角單元到左上單元回溯最佳路徑(用箭頭表示),根據最佳路徑給出兩序列的比對結果。其中,斜箭頭表示2個殘基匹配,水平箭頭表示在序列S的相應位置插入一個空位,垂直方向的箭頭表示在序列T的相應位置插入一個空位。
Smith-Waterman演算法:該演算法是一種用來尋找並比較具有局部相似性區域的動態規劃演算法,這種演算法適用於親緣關系較遠、整體上不具有相似性而在一些較小的區域上存在局部相似性的兩個序列。該演算法的基本思想是:使用迭代方法計算出兩個序列的相似分值,存在一個得分矩陣M中,然後根據這個得分矩陣,通過動態規劃的方法回溯找到最優的比對序列。與全局比對相比,這種演算法的改變是把矩陣單元值為負者一律取為0,這是因為分值為負的比對喪失了比對的生物學意義,因此把得分為負值的子序列丟棄。
BLAST: BLAST演算法的基本思想是通過產生數量更少的但質量更好的增強點來提高比對的速度。演算法的原理主要分為以下五步:(1)過濾:首先過濾掉低復雜度區域,即含有大量重復的序列;(2)Seeding:將Query序列中每k個字組合成一個表,即將一個序列拆分成多個連續的『seed words』(通常蛋白質k=3,核酸k=11);(3)比對:列出我們所關心的所有可能的字組,再配合置換矩陣給出高分值的字組並組織成快速搜索樹結構或者哈希索引,因此此步驟可以快速搜索出大數據集中的所有匹配序列,找到每個seed words在參考序列中的位置;(4)延伸:當找到seed words的位置後,接下來需要將seed word延伸成長片段,延伸過程中,得分值也在變化,當得分值小於閾值時即停止延伸,最後得到的片段成為高分片段對,HSP(High-scoring segment pair);(5)顯著性分析,最後我們使用如下公式計算E值,E值衡量了在隨機情況下,資料庫存在的比當前匹配分數更好的比對的數目,因此可以用該值作為指標評價HSP比對序列的可信度。
其中,m是資料庫長度,n是query的長度,S是HSP分數,其他兩個參數是修正系數。
(2)多重序列比對
動態規劃演算法:其基本思想是將一個二維的動態規劃矩陣擴展到三維或者多維,多序列比對的積分是n個序列中兩兩進行比對所得積分之和。矩陣的維度反映了參與比對的序列數。這種方法對計算資源要求比較高[6]。
隨機演算法:主要包括遺傳演算法和模擬退火演算法,遺傳演算法是一類借鑒生物界進化規律演化來的全局意義上的自適應隨機搜索方法。當用遺傳演算法進行生物序列分析時,每一代包含固定數量的個體,這些個體用他們的適應度來評價。變異則模擬了生物進化過程中的偶然殘基突變現象。對產生的新一代群體進行重新評價、選擇、交叉、變異,如此循環往復,使群體中最優個體的適應度不斷提高,直到達到一個閾值,演算法結束。模擬退火的基本思想是用一物質系統的退火過程來模擬優化問題的尋優方法,當物質系統達到最小能量狀態時,優化問題的目標函數也相應地達到了全局最優解。這兩種方法都是對構造好的目標函數進行最優解搜索,但實際比對效果並不好[6,7]。
迭代法:迭代法的代表是Muscle[8], Muscle是一個新的漸進比對和迭代比對的綜合演算法,主要由兩部分構成,第一部分是迭代漸進比對:第一次漸進比對的目的是快速產生一個多序列比對而不強調准確率,以此為基礎再對漸進比對進行改良。經過兩次漸進比對,形成一個相對准確的多序列比對;第二部分是迭代比對:該過程類似於Prrp演算法[9],即通過不斷的迭代,逐步優化最終比對結果。其主要特點包括:使用kmer counting進行快速的距離測量,使用一個新的圖譜比對打分函數進行漸進比對,使用依賴於數的有限分隔進行細化。
漸進比對演算法:該演算法以Feng和Doolittle提出的最為經典[10]。漸進比對演算法的基本思想是迭代地利用兩序列動態規劃比對演算法,先由兩個序列的比對開始,逐漸添加新序列,直到所有序列都加入為止。但是不同的添加順序會產生不同的比對結果。確定合適的比對順序是漸進比對演算法的一個關鍵問題。通常,整個序列的比對應該從最相似的兩個序列開始,由近至遠逐步完成。作為全局多序列比對的漸進比對演算法有個基本的前提假設:所有要比對的序列是同源的,即由共同的祖先序列經過一系列的突變積累,並經自然選擇遺傳下來的,分化越晚的序列之間相似程度就越高。因此,在漸進比對過程中,應該對近期的進化事件比遠期的進化事件給予更大的關注。由於同源序列是進化相關的,因此可以按著序列的進化順序,即沿著系統發育樹(指導樹)的分支,由近至遠將序列或已比對序列按雙序列比對演算法逐步進行比對,重復這一過程直到所有序列都己添加到這個比對中為止[10]。其三個步驟為:(1)利用雙序列比對方法對所有的序列進行兩兩比對,得到相似性分值;(2)利用相似性矩陣(或距離矩陣)產生輔助導向樹;(3)根據導向樹進行漸進比對。漸進比對演算法是最常用、簡單又有效的啟發式多序列比對方法,它所需時間較短、所佔內存較小,其演算法很多,主要有CLUSTAL W, T-Coffee和DiAlign等,其中 CLUSTAL W應用最廣泛。
應用:
類型+應用
雙重序列對比:判斷兩個序列的同源性和一致性。(1)全局多序列比對可以鑒別或證明新序列與己有序列家族的同源性;幫助預測新蛋白質序列的二級和二級結構,是進行分子進化分析的重要前提。適合序列相似性較高,序列長度近似時的比對;(2)局部比對考慮序列部分區域的相似性。局部多序列比對可以用來刻畫蛋白質家族和超家族。適合於未知兩個序列相似程度的,可能存在一些片段極其相似而另一些片段相異的序列比對情況。
多重序列比對:多重比對經常用來研究序列間的進化關系,構建進化樹;探究序列間的保守性。主要用於分子進化關系,預測蛋白質的二級結構和三級結構、估計蛋白質折疊類型的總數,基因組序列分析等。
基因組比對:通過對不同親緣關系物種的基因組序列進行比較,能夠鑒定出編碼序列、非編碼調控序列及給定物種獨有的序列。而基因組范圍之內的序列比對,可以了解不同物在核苷酸組成、同線性關系和基因順序方面的異同,進而得到基因分析預測與定位、生物系統發生進化關系等方面的信息。
其中,BLAST作為最重要的比對工具,意義特殊,拿出來單獨討論。BLAST可以分成Basic BLAST和 Specialized BLAST, BLAST包括常規的nucleotide blast, Protein blast和Translating blast;Specialize blast可以對特殊生物或特殊研究領域的序列資料庫進行檢索。