『壹』 生物信息怎樣序列比對需要哪些數據
生物信息學在短短十幾年間,已經形成了多個研究方向,以下簡要介紹一些主要的研究重點。
序列比對
序列比對(Sequence Alignment)的基本問題是比較兩個或兩個以上符號序列的相似性或不相似性。從生物學的初衷來看,這一問題包含了以下幾個意義:從相互重疊的序列片斷中重構DNA的完整序列。在各種試驗條件下從探測數據(probe data)中決定物理和基因圖存貯,遍歷和比較資料庫中的DNA序列,比較兩個或多個序列的相似性,在資料庫中搜索相關序列和子序列,尋找核苷酸(nucleotides)的連續產生模式,找出蛋白質和DNA序列中的信息成分。序列比對考慮了DNA序列的生物學特性,如序列局部發生的插入,刪除(前兩種簡稱為indel)和替代,序列的目標函數獲得序列之間突變集最小距離加權和或最大相似性和,對齊的方法包括全局對齊,局部對齊,代溝懲罰等。兩個序列比對常採用動態規劃演算法,這種演算法在序列長度較小時適用,然而對於海量基因序列(如人的DNA序列高達10^9bp),這一方法就不太適用,甚至採用演算法復雜性為線性的也難以奏效。因此,啟發式方法的引入勢在必然,著名的BLAST和FASTA演算法及相應的改進方法均是從此前提出發的。
蛋白質比對
基本問題是比較兩個或兩個以上蛋白質分子空間結構的相似性或不相似性。蛋白質的結構與功能是密切相關的,一般認為,具有相似功能的蛋白質結構一般相似。蛋白質是由氨基酸組成的長鏈,長度從50到1000~3000AA(Amino Acids),蛋白質具有多種功能,如酶,物質的存貯和運輸,信號傳遞,抗體等等。氨基酸的序列內在的決定了蛋白質的3維結構。一般認為,蛋白質有四級不同的結構。研究蛋白質結構和預測的理由是:醫葯上可以理解生物的功能,尋找dockingdrugs的目標,農業上獲得更好的農作物的基因工程,工業上有利用酶的合成。直接對蛋白質結構進行比對的原因是由於蛋白質的3維結構比其一級結構在進化中更穩定的保留,同時也包含了較AA序列更多的信息。蛋白質3維結構研究的前提假設是內在的氨基酸序列與3維結構一一對應(不一定全真),物理上可用最小能量來解釋。從觀察和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構。同源建模(homology modeling)和指認(Threading)方法屬於這一范疇。同源建模用於尋找具有高度相似性的蛋白質結構(超過30%氨基酸相同),後者則用於比較進化族中不同的蛋白質結構。然而,蛋白結構預測研究現狀還遠遠不能滿足實際需要。
『貳』 生物學上實驗處理數據的方法有哪些
實驗數據的處理方法:
1. 平均值法
取算術平均值是為減小偶然誤差而常用的一種數據處理方法。通常在同樣的測量條件下,對於某一物理量進行多次測量的結果不會完全一樣,用多次測量的算術平均值作為測量結果,是真實值的最好近似。
2. 列表法
實驗中將數據列成表格,可以簡明地表示出有關物理量之間的關系,便於檢查測量結果和運算是否合理,有助於發現和分析問題,而且列表法還是圖象法的基礎。
列表時應注意:
①表格要直接地反映有關物理量之間的關系,一般把自變數寫在前邊,因變數緊接著寫在後面,便於分析。
②表格要清楚地反映測量的次數,測得的物理量的名稱及單位,計算的物理量的名稱及單位。物理量的單位可寫在標題欄內,一般不在數值欄內重復出現。
③表中所列數據要正確反映測量值的有效數字。
3. 作圖法
選取適當的自變數,通過作圖可以找到或反映物理量之間的變化關系,並便於找出其中的規律,確定對應量的函數關系。作圖法是最常用的實驗數據處理方法之一。
描繪圖象的要求是:
①根據測量的要求選定坐標軸,一般以橫軸為自變數,縱軸為因變數。坐標軸要標明所代表的物理量的名稱及單位。
②坐標軸標度的選擇應合適,使測量數據能在坐標軸上得到准確的反映。為避免圖紙上出現大片空白,坐標原點可以是零,也可以不是零。坐標軸的分度的估讀數,應與測量值的估讀數(即有效數字的末位)相對應。
『叄』 生物信息學研究的內容
生物信息學的主要研究內容
1、序列比對(Alignment)
基本問題是比較兩個或兩個以上符號序列的相似性或不相似性。序列比對是生物信息學的基礎,非常重要。兩個序列的比對有較成熟的動態規劃演算法,以及在此基礎上編寫的比對軟體包BLAST和FASTA,可以免費下載使用。這些軟體在資料庫查詢和搜索中有重要的應用。
2、結構比對
基本問題是比較兩個或兩個以上蛋白質分子空間結構的相似性或不相似性。已有一些演算法。
3、蛋白質結構預測,包括2級和3級結構預測,是最重要的課題之一
從方法上來看有演繹法和歸納法兩種途徑。前者主要是從一些基本原理或假設出發來預測和研究蛋白質的結構和折疊過程。分子力學和分子動力學屬這一范疇。後者主要是從觀察和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構。同源模建(Homology)和指認(Threading)方法屬於這一范疇。雖然經過30餘年的努力,蛋白結構預測研究現狀遠遠不能滿足實際需要。
4、計算機輔助基因識別(僅指蛋白質編碼基因)。最重要的課題之一
基本問題是給定基因組序列後,正確識別基因的范圍和在基因組序列中的精確位置.這是最重要的課題之一,而且越來越重要。經過20餘年的努力,提出了數十種演算法,有十種左右重要的演算法和相應軟體上網提供免費服務。原核生物計算機輔助基因識別相對容易些,結果好一些。從具有較多內含子的真核生物基因組序列中正確識別出起始密碼子、剪切位點和終止密碼子,是個相當困難的問題,研究現狀不能令人滿意,仍有大量的工作要做。
5、非編碼區分析和DNA語言研究,是最重要的課題之一
在人類基因組中,編碼部分進展總序列的3~5%,其它通常稱為「垃圾」DNA,其實一點也不是垃圾,只是我們暫時還不知道其重要的功能。分析非編碼區DNA序列需要大膽的想像和嶄新的研究思路和方法。DNA序列作為一種遺傳語言,不僅體現在編碼序列之中,而且隱含在非編碼序列之中。
6、分子進化和比較基因組學,是最重要的課題之一
早期的工作主要是利用不同物種中同一種基因序列的異同來研究生物的進化,構建進化樹。既可以用DNA序列也可以用其編碼的氨基酸序列來做,甚至於可通過相關蛋白質的結構比對來研究分子進化。以上研究已經積累了大量的工作。近年來由於較多模式生物基因組測序任務的完成,為從整個基因組的角度來研究分子進化提供了條件。
7、序列重疊群(Contigs)裝配
一般來說,根據現行的測序技術,每次反應只能測出500或更多一些鹼基對的序列,這就有一個把大量的較短的序列全體構成了重疊群(Contigs)。逐步把它們拼接起來形成序列更長的重疊群,直至得到完整序列的過程稱為重疊群裝配。拼接EST數據以發現全長新基因也有類似的問題。已經證明,這是一個NP-完備
性演算法問題。
8、遺傳密碼的起源
遺傳密碼為什麼是現在這樣的?這一直是一個謎。一種最簡單的理論認為,密碼子與氨基酸之間的關系是生物進化歷史上一次偶然的事件而造成的,並被固定在現代生物最後的共同祖先里,一直延續至今。不同於這種「凍結」理論,有人曾分別提出過選擇優化、化學和歷史等三種學說來解釋遺傳密碼。隨著各種生物基因組測序任務的完成,為研究遺傳密碼的起源和檢驗上述理論的真偽提供了新的素材。
9、基於結構的葯物設計。是最重要的課題之一
人類基因組計劃的目的之一在於闡明人的約10萬種蛋白質的結構、功能、相互作用以及與各種人類疾病之間的關系,尋求各種治療和預防方法,包括葯物治療。基於生物大分子結構的葯物設計是生物信息學中的極為重要的研究領域。為了抑制某些酶或蛋白質的活性,在已知其3級結構的基礎上,可以利用分子對接演算法,在計算機上設計抑制劑分子,作為候選葯物。這種發現新葯物的方法有強大的生命力,也有著巨大的經濟效益
『肆』 生物信息學主要處理和分析哪些高通量數據類型
高通量數據類型主要包括基因晶元和基因測序,我估計你想知道的是具體的內容。
具體的內容其實是指的高通量測序技術的應用,例如microarray,RNA-Seq,Exome-Seq,Target-Seq,Whole-genome-sequencing,宏基因組,16S RNA,microRNA,lncRNA測序等。
研究的問題就更五花八門了,像現在精準醫療的概念很火,主要是以基因測序為入口,後面的應用,例如產前診斷,孕前診斷等,甚至像親子鑒定,腫瘤靶標等都可以通過生物信息學的分析手段來搞定。
生物信息分析分為幾個層次,第一個層次基本上就是用別人做好的成熟軟體,直接分析出你要的結果,再深入就是你會根據問題找到更合適的一些軟體或者模塊,自己組建一些分析流程,包括自己寫一些輔助的程序腳本,更深入的層次就是市面上沒有符合你要求的軟體或者統計演算法,你依據自己的需求,定製自己的分析過程,自己從頭開始寫基礎程序,寫統計演算法,寫模型等。到了這個程度就沒有那麼多限制了,主要比的是個人的思維想法以及眼界開闊程度。
現在也很多生物信息的分析方法應用在大數據的各個領域。本質是各種統計思維方法的實現,找出特定的模式結果。