Ⅰ 生物信息學
一, 生物信息學發展簡介
生物信息學是建立在分子生物學的基礎上的,因此,要了解生物信息學,就
必須先對分子生物學的發展有一個簡單的了解.研究生物細胞的生物大分子的結
構與功能很早就已經開始,1866年孟德爾從實驗上提出了假設:基因是以生物
成分存在[1],1871年Miescher從死的白細胞核中分離出脫氧核糖核酸(DNA),
在Avery和McCarty於1944年證明了DNA是生命器官的遺傳物質以前,人們
仍然認為染色體蛋白質攜帶基因,而DNA是一個次要的角色.
1944年Chargaff發現了著名的Chargaff規律,即DNA中鳥嘌呤的量與胞嘧
定的量總是相等,腺嘌呤與胸腺嘧啶的量相等.與此同時,Wilkins與Franklin
用X射線衍射技術測定了DNA纖維的結構.1953年James Watson 和Francis
Crick在Nature雜志上推測出DNA的三維結構(雙螺旋).DNA以磷酸糖鏈形
成發雙股螺旋,脫氧核糖上的鹼基按Chargaff規律構成雙股磷酸糖鏈之間的鹼基
對.這個模型表明DNA具有自身互補的結構,根據鹼基對原則,DNA中貯存的
遺傳信息可以精確地進行復制.他們的理論奠定了分子生物學的基礎.
DNA雙螺旋模型已經預示出了DNA復制的規則,Kornberg於1956年從大
腸桿菌(E.coli)中分離出DNA聚合酶I(DNA polymerase I),能使4種dNTP連接
成DNA.DNA的復制需要一個DNA作為模板.Meselson與Stahl(1958)用實驗
方法證明了DNA復制是一種半保留復制.Crick於1954年提出了遺傳信息傳遞
的規律,DNA是合成RNA的模板,RNA又是合成蛋白質的模板,稱之為中心
法則(Central dogma),這一中心法則對以後分子生物學和生物信息學的發展都起
到了極其重要的指導作用.
經過Nirenberg和Matthai(1963)的努力研究,編碼20氨基酸的遺傳密碼
得到了破譯.限制性內切酶的發現和重組DNA的克隆(clone)奠定了基因工程
的技術基礎.
正是由於分子生物學的研究對生命科學的發展有巨大的推動作用,生物信息
學的出現也就成了一種必然.
2001年2月,人類基因組工程測序的完成,使生物信息學走向了一個高潮.
由於DNA自動測序技術的快速發展,DNA資料庫中的核酸序列公共數據量以每
天106bp速度增長,生物信息迅速地膨脹成數據的海洋.毫無疑問,我們正從一
個積累數據向解釋數據的時代轉變,數據量的巨大積累往往蘊含著潛在突破性發
現的可能,"生物信息學"正是從這一前提產生的交叉學科.粗略地說,該領域
的核心內容是研究如何通過對DNA序列的統計計算分析,更加深入地理解DNA
序列,結構,演化及其與生物功能之間的關系,其研究課題涉及到分子生物學,
分子演化及結構生物學,統計學及計算機科學等許多領域.
生物信息學是內涵非常豐富的學科,其核心是基因組信息學,包括基因組信
息的獲取,處理,存儲,分配和解釋.基因組信息學的關鍵是"讀懂"基因組的核
苷酸順序,即全部基因在染色體上的確切位置以及各DNA片段的功能;同時在
發現了新基因信息之後進行蛋白質空間結構模擬和預測,然後依據特定蛋白質的
功能進行葯物設計[2].了解基因表達的調控機理也是生物信息學的重要內容,根
據生物分子在基因調控中的作用,描述人類疾病的診斷,治療內在規律.它的研
究目標是揭示"基因組信息結構的復雜性及遺傳語言的根本規律",解釋生命的遺
傳語言.生物信息學已成為整個生命科學發展的重要組成部分,成為生命科學研
究的前沿.
二, 生物信息學的主要研究方向
生物信息學在短短十幾年間,已經形成了多個研究方向,以下簡要介紹一些
主要的研究重點.
1,序列比對(Sequence Alignment)
序列比對的基本問題是比較兩個或兩個以上符號序列的相似性或不相似
性.從生物學的初衷來看,這一問題包含了以下幾個意義[3]:
從相互重疊的序列片斷中重構DNA的完整序列.
在各種試驗條件下從探測數據(probe data)中決定物理和基因圖
存貯,遍歷和比較資料庫中的DNA序列
比較兩個或多個序列的相似性
在資料庫中搜索相關序列和子序列
尋找核苷酸(nucleotides)的連續產生模式
找出蛋白質和DNA序列中的信息成分
序列比對考慮了DNA序列的生物學特性,如序列局部發生的插入,刪除(前
兩種簡稱為indel)和替代,序列的目標函數獲得序列之間突變集最小距離加權
和或最大相似性和,對齊的方法包括全局對齊,局部對齊,代溝懲罰等.兩個
序列比對常採用動態規劃演算法,這種演算法在序列長度較小時適用,然而對於海
量基因序列(如人的DNA序列高達109bp),這一方法就不太適用,甚至採用算
法復雜性為線性的也難以奏效.因此,啟發式方法的引入勢在必然,著名的
BALST和FASTA演算法及相應的改進方法均是從此前提出發的.
2, 蛋白質結構比對和預測
基本問題是比較兩個或兩個以上蛋白質分子空間結構的相似性或不相似性.
蛋白質的結構與功能是密切相關的,一般認為,具有相似功能的蛋白質結構一般
相似.蛋白質是由氨基酸組成的長鏈,長度從50到1000~3000AA(Amino Acids),
蛋白質具有多種功能,如酶,物質的存貯和運輸,信號傳遞,抗體等等.氨基酸
的序列內在的決定了蛋白質的3維結構.一般認為,蛋白質有四級不同的結構.
研究蛋白質結構和預測的理由是:醫葯上可以理解生物的功能,尋找docking
drugs的目標,農業上獲得更好的農作物的基因工程,工業上有利用酶的合成.
直接對蛋白質結構進行比對的原因是由於蛋白質的3維結構比其一級結構
在進化中更穩定的保留,同時也包含了較AA序列更多的信息.
蛋白質3維結構研究的前提假設是內在的氨基酸序列與3維結構一一對應
(不一定全真),物理上可用最小能量來解釋.
從觀察和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構.同
源建模(homology modeling)和指認(Threading)方法屬於這一范疇.同源建模用
於尋找具有高度相似性的蛋白質結構(超過30%氨基酸相同),後者則用於比較
進化族中不同的蛋白質結構.
然而,蛋白結構預測研究現狀還遠遠不能滿足實際需要.
3, 基因識別,非編碼區分析研究.
基因識別的基本問題是給定基因組序列後,正確識別基因的范圍和在基因組
序列中的精確位置.非編碼區由內含子組成(introns),一般在形成蛋白質後被丟
棄,但從實驗中,如果去除非編碼區,又不能完成基因的復制.顯然,DNA序
列作為一種遺傳語言,既包含在編碼區,又隱含在非編碼序列中.分析非編碼
區DNA序列目前沒有一般性的指導方法.
在人類基因組中,並非所有的序列均被編碼,即是某種蛋白質的模板,已
完成編碼部分僅占人類基因總序列的3~5%,顯然,手工的搜索如此大的基因序
列是難以想像的.
偵測密碼區的方法包括測量密碼區密碼子(codon)的頻率,一階和二階馬爾
可夫鏈,ORF(Open Reading Frames),啟動子(promoter)識別,HMM(Hidden
Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子進化和比較基因組學
分子進化是利用不同物種中同一基因序列的異同來研究生物的進化,構建進
化樹.既可以用DNA序列也可以用其編碼的氨基酸序列來做,甚至於可通過相
關蛋白質的結構比對來研究分子進化,其前提假定是相似種族在基因上具有相似
性.通過比較可以在基因組層面上發現哪些是不同種族中共同的,哪些是不同的.
早期研究方法常採用外在的因素,如大小,膚色,肢體的數量等等作為進化
的依據.近年來較多模式生物基因組測序任務的完成,人們可從整個基因組的角
度來研究分子進化.在匹配不同種族的基因時,一般須處理三種情況:
Orthologous: 不同種族,相同功能的基因
Paralogous: 相同種族,不同功能的基因
Xenologs: 有機體間採用其他方式傳遞的基因,如被病毒注入的基因.
這一領域常採用的方法是構造進化樹,通過基於特徵(即DNA序列或蛋白
質中的氨基酸的鹼基的特定位置)和基於距離(對齊的分數)的方法和一些傳統
的聚類方法(如UPGMA)來實現.
5, 序列重疊群(Contigs)裝配
根據現行的測序技術,每次反應只能測出500 或更多一些鹼基對的序列,
如人類基因的測量就採用了短槍(shortgun)方法,這就要求把大量的較短的序列
全體構成了重疊群(Contigs).逐步把它們拼接起來形成序列更長的重疊群,直
至得到完整序列的過程稱為重疊群裝配.從演算法層次來看,序列的重疊群是一個
NP-完全問題.
6, 遺傳密碼的起源
通常對遺傳密碼的研究認為,密碼子與氨基酸之間的關系是生物進化歷史上
一次偶然的事件而造成的,並被固定在現代生物的共同祖先里,一直延續至今.
不同於這種"凍結"理論,有人曾分別提出過選擇優化,化學和歷史等三種學說
來解釋遺傳密碼.隨著各種生物基因組測序任務的完成,為研究遺傳密碼的起源
和檢驗上述理論的真偽提供了新的素材.
7, 基於結構的葯物設計
人類基因工程的目的之一是要了解人體內約10萬種蛋白質的結構,功能,
相互作用以及與各種人類疾病之間的關系,尋求各種治療和預防方法,包括葯物
治療.基於生物大分子結構及小分子結構的葯物設計是生物信息學中的極為重要
的研究領域.為了抑制某些酶或蛋白質的活性,在已知其蛋白質3級結構的基礎
上,可以利用分子對齊演算法,在計算機上設計抑制劑分子,作為候選葯物.這一
領域目的是發現新的基因葯物,有著巨大的經濟效益.
8, 其他
如基因表達譜分析,代謝網路分析;基因晶元設計和蛋白質組學數據分析等,
逐漸成為生物信息學中新興的重要研究領域;在學科方面,由生物信息學衍生的
學科包括結構基因組學,功能基因組學,比較基因組學,蛋白質學,葯物基因組
學,中葯基因組學,腫瘤基因組學,分子流行病學和環境基因組學.
從現在的發展不難看出,基因工程已經進入了後基因組時代.我們也有應對
與生物信息學密切相關的如機器學習,和數學中可能存在的誤導有一個清楚的認
識.
三, 生物信息學與機器學習
生物信息的大規模給數據挖掘提出了新課題和挑戰,需要新的思想的加入.
常規的計算機演算法仍可以應用於生物數據分析中,但越來越不適用於序列分析問
題.究竟原因,是由於生物系統本質上的模型復雜性及缺乏在分子層上建立的完
備的生命組織理論.
西蒙曾給出學習的定義:學習是系統的變化,這種變化可使系統做相同工作
時更有效[4].機器學習的目的是期望能從數據中自動地獲得相應的理論,通過采
用如推理,模型擬合及從樣本中學習,尤其適用於缺乏一般性的理論,"雜訊"
模式,及大規模數據集.因此,機器學習形成了與常規方法互補的可行的方法.
機器學習使得利用計算機從海量的生物信息中提取有用知識,發現知識成為可能
[5].
機器學習方法在大樣本,多向量的數據分析工作中發揮著日益重要的作用,
而目前大量的基因資料庫處理需要計算機能自動識別,標注,以避免即耗時又花
費巨大的人工處理方法.早期的科學方法—觀測和假設----面對高數據的體積,
快速的數據獲取率和客觀分析的要求---已經不能僅依賴於人的感知來處理了.因
而,生物信息學與機器學習相結合也就成了必然.
機器學習中最基本的理論框架是建立在概率基礎上的,從某種意義來說,是
統計模型擬合的延續,其目的均為提取有用信息.機器學習與模式識別和統計推
理密切相關.學習方法包括數據聚類,神經網路分類器和非線性回歸等等.隱馬
爾可夫模型也廣泛用於預測DNA的基因結構.目前研究重心包括:1)觀測和
探索有趣的現象.目前ML研究的焦點是如何可視化和探索高維向量數據.一般
的方法是將其約簡至低維空間,如常規的主成分分析(PCA),核主成分分析
(KPCA),獨立成分分析(Independent component analysis),局部線性嵌套(Locally
Linear embedding).2)生成假設和形式化模型來解釋現象[6].大多數聚類方法可
看成是擬合向量數據至某種簡單分布的混合.在生物信息學中聚類方法已經用於
microarray數據分析中,癌症類型分類及其他方向中.機器學習也用於從基因數
據庫中獲得相應的現象解釋.
機器學習加速了生物信息學的進展,也帶了相應的問題.機器學習方法大多
假定數據符合某種相對固定的模型,而一般數據結構通常是可變的,在生物信息
學中尤其如此,因此,有必要建立一套不依賴於假定數據結構的一般性方法來尋
找數據集的內在結構.其次,機器學習方法中常採用"黑箱"操作,如神經網路
和隱馬爾可夫模型,對於獲得特定解的內在機理仍不清楚.
四, 生物信息學的數學問題
生物信息學中數學佔了很大的比重.統計學,包括多元統計學,是生物信息
學的數學基礎之一;概率論與隨機過程理論,如近年來興起的隱馬爾科夫鏈模型
(HMM),在生物信息學中有重要應用;其他如用於序列比對的運籌學;蛋白質
空間結構預測和分子對接研究中採用的最優化理論;研究DNA超螺旋結構的拓
撲學;研究遺傳密碼和DNA序列的對稱性方面的群論等等.總之,各種數學理
論或多或少在生物學研究中起到了相應的作用.
但並非所有的數學方法在引入生物信息學中都能普遍成立的,以下以統計學
和度量空間為例來說明.
1, 統計學的悖論
數學的發展是伴隨悖論而發展的.對於進化樹研究和聚類研究中最顯著的悖
論莫過於均值了,如圖1:
圖1 兩組同心圓的數據集
圖1是兩組同心圓構成的數據集,顯然,兩組數據集的均值均在圓點,這也
就說明了要採用常規的均值方法不能將這兩類分開,也表明均值並不能帶來更多
的數據的幾何性質.那麼,如果數據呈現類似的特有分布時,常有的進化樹演算法
和聚類演算法(如K-均值)往往會得錯誤的結論.統計上存在的陷阱往往是由於
對數據的結構缺乏一般性認識而產生的.
2, 度量空間的假設
在生物信息學中,進化樹的確立,基因的聚類等都需要引入度量的概念.舉
例來說,距離上相近或具有相似性的基因等具有相同的功能,在進化樹中滿足分
值最小的具有相同的父系,這一度量空間的前提假設是度量在全局意義下成立.
那麼,是否這種前提假設具有普適性呢
我們不妨給出一般的描述:假定兩個向量為A,B,其中,
,則在假定且滿足維數間線性無關的前提下,兩個
向量的度量可定義為:
(1)
依據上式可以得到滿足正交不變運動群的歐氏度量空間,這也是大多數生物信息
學中常採用的一般性描述,即假定了變數間線性無關.
然而,這種假設一般不能正確描述度量的性質,尤其在高維數據集時,不考
慮數據變數間的非線性相關性顯然存在問題,由此,我們可以認為,一個正確的
度量公式可由下式給出:
(2)
上式中採用了愛因斯坦和式約定,描述了變數間的度量關系.後者在滿足
(3)
時等價於(1),因而是更一般的描述,然而問題在於如何准確描述變數間的非線
性相關性,我們正在研究這個問題.
五, 幾種統計學習理論在生物信息學中應用的困難
生物信息學中面對的數據量和資料庫都是規模很大的,而相對的目標函數卻
一般難以給出明確的定義.生物信息學面臨的這種困難,可以描述成問題規模的
巨大以及問題定義的病態性之間的矛盾,一般從數學上來看,引入某個正則項來
改善性能是必然的[7].以下對基於這一思想產生的統計學習理論[8],Kolmogorov
復雜性[98]和BIC(Bayesian Information Criterion)[109]及其存在的問題給出簡要介
紹.
支持向量機(SVM)是近來較熱門的一種方法,其研究背景是Vapnik的統計
學習理論,是通過最大化兩個數據集的最大間隔來實現分類,對於非線性問題則
採用核函數將數據集映射至高維空間而又無需顯式描述數據集在高維空間的性
質,這一方法較之神經方法的好處在於將神經網路隱層的參數選擇簡化為對核函
數的選擇,因此,受到廣泛的注意.在生物信息學中也開始受到重視,然而,核
函數的選擇問題本身是一個相當困難的問題,從這個層次來看,最優核函數的選
擇可能只是一種理想,SVM也有可能象神經網路一樣只是機器學習研究進程中
又一個大氣泡.
Kolmogorov復雜性思想與統計學習理論思想分別從不同的角度描述了學習
的性質,前者從編碼的角度,後者基於有限樣本來獲得一致收斂性.Kolmogorov
復雜性是不可計算的,因此由此衍生了MDL原則(最小描述長度),其最初只
適用於離散數據,最近已經推廣至連續數據集中,試圖從編碼角度獲得對模型參
數的最小描述.其缺陷在於建模的復雜性過高,導致在大數據集中難以運用.
BIC准則從模型復雜性角度來考慮,BIC准則對模型復雜度較高的給予大的
懲罰,反之,懲罰則小,隱式地體現了奧卡姆剃刀("Occam Razor")原理,近
年也廣泛應用於生物信息學中.BIC准則的主要局限是對參數模型的假定和先驗
的選擇的敏感性,在數據量較大時處理較慢.因此,在這一方面仍然有許多探索
的空間.
六, 討論與總結
人類對基因的認識,從以往的對單個基因的了解,上升到在整個基因組水平
上考察基因的組織結構和信息結構,考察基因之間在位置,結構和功能上的相互
關系.這就要求生物信息學在一些基本的思路上要做本質的觀念轉變,本節就這
些問題做出探討和思索.
啟發式方法:
Simond在人類的認知一書中指出,人在解決問題時,一般並不去尋找最優
的方法,而只要求找到一個滿意的方法.因為即使是解決最簡單的問題,要想得
到次數最少,效能最高的解決方法也是非常困難的.最優方法和滿意方法之間的
困難程度相差很大,後者不依賴於問題的空間,不需要進行全部搜索,而只要能
達到解決的程度就可以了.正如前所述,面對大規模的序列和蛋白質結構數據集,
要獲得全局結果,往往是即使演算法復雜度為線性時也不能夠得到好的結果,因此,
要通過變換解空間或不依賴於問題的解空間獲得滿意解,生物信息學仍需要人工
智能和認知科學對人腦的進一步認識,並從中得到更好的啟發式方法.
問題規模不同的處理:
Marvin Minsky在人工智慧研究中曾指出:小規模數據量的處理向大規模數
據量推廣時,往往並非演算法上的改進能做到的,更多的是要做本質性的變化.這
好比一個人爬樹,每天都可以爬高一些,但要想爬到月球,就必須採用其他方法
一樣.在分子生物學中,傳統的實驗方法已不適應處理飛速增長的海量數據.同
樣,在採用計算機處理上,也並非依靠原有的計算機演算法就能夠解決現有的數據
挖掘問題.如在序列對齊(sequence Alignment)問題上,在小規模數據中可以採用
動態規劃,而在大規模序列對齊時不得不引入啟發式方法,如BALST,FASTA.
樂觀中的隱擾
生物信息學是一門新興學科,起步於20世紀90年代,至今已進入"後基因
組時代",目前在這一領域的研究人員均呈普遍樂觀態度,那麼,是否存在潛在
的隱擾呢
不妨回顧一下早期人工智慧的發展史[11],在1960年左右,西蒙曾相信不出
十年,人類即可象完成登月一樣完成對人的模擬,造出一個與人智能行為完全相
同的機器人.而至今為止,這一諾言仍然遙遙無期.盡管人工智慧研究得到的成
果已經滲入到各個領域,但對人的思維行為的了解遠未完全明了.從本質來看,
這是由於最初人工智慧研究上定位錯誤以及沒有從認識論角度看清人工智慧的
本質造成的;從研究角度來看,將智能行為還原成一般的形式化語言和規則並不
能完整描述人的行為,期望物理科學的成功同樣在人工智慧研究中適用並不現
實.
反觀生物信息學,其目的是期望從基因序列上解開一切生物的基本奧秘,從
結構上獲得生命的生理機制,這從哲學上來看是期望從分子層次上解釋人類的所
有行為和功能和致病原因.這類似於人工智慧早期發展中表現的樂觀行為,也來
自於早期分子生物學,生物物理和生物化學的成就.然而,從本質上來講,與人
工智能研究相似,都是希望將生命的奧秘還原成孤立的基因序列或單個蛋白質的
功能,而很少強調基因序列或蛋白質組作為一個整體在生命體中的調控作用.我
們因此也不得不思考,這種研究的最終結果是否能夠支撐我們對生物信息學的樂
觀呢 現在說肯定的話也許為時尚早.
綜上所述,不難看出,生物信息學並不是一個足以樂觀的領域,究竟原因,
是由於其是基於分子生物學與多種學科交叉而成的新學科,現有的形勢仍表現為
各種學科的簡單堆砌,相互之間的聯系並不是特別的緊密.在處理大規模數據方
面,沒有行之有效的一般性方法;而對於大規模數據內在的生成機制也沒有完全
明了,這使得生物信息學的研究短期內很難有突破性的結果.那麼,要得到真正
的解決,最終不能從計算機科學得到,真正地解決可能還是得從生物學自身,從
數學上的新思路來獲得本質性的動力.
毫無疑問,正如Dulbecco1986年所說:"人類的DNA序列是人類的真諦,
這個世界上發生的一切事情,都與這一序列息息相關".但要完全破譯這一序列
以及相關的內容,我們還有相當長的路要走.
(來源 ------[InfoBio.org | 生物信息學研討組])http://www.infobio.org
生物信息學(Bioinformatics)是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一。其研究重點主要體現在基因組學(Genomics)和蛋白學(Proteomics)兩方面,具體說就是從核酸和蛋白質序列出發,分析序列中表達的結構功能的生物信息。
生物信息學是一門利用計算機技術研究生物系統之規律的學科。
目前的生物信息學基本上只是分子生物學與信息技術(尤其是網際網路技術)的結合體。生物信息學的研究材料和結果就是各種各樣的生物學數據,其研究工具是計算機,研究方法包括對生物學數據的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計算、模擬)。
1990年代以來,伴隨著各種基因組測序計劃的展開和分子結構測定技術的突破和Internet的普及,數以百計的生物學資料庫如雨後春筍般迅速出現和成長。對生物信息學工作者提出了嚴峻的挑戰:數以億計的ACGT序列中包涵著什麼信息?基因組中的這些信息怎樣控制有機體的發育?基因組本身又是怎樣進化的?
生物信息學的另一個挑戰是從蛋白質的氨基酸序列預測蛋白質結構。這個難題已困擾理論生物學家達半個多世紀,如今找到問題答案要求正變得日益迫切。諾貝爾獎獲得者W. Gilbert在1991年曾經指出:「傳統生物學解決問題的方式是實驗的。現在,基於全部基因都將知曉,並以電子可操作的方式駐留在資料庫中,新的生物學研究模式的出發點應是理論的。一個科學家將從理論推測出發,然後再回到實驗中去,追蹤或驗證這些理論假設」。
生物信息學的主要研究方向: 基因組學 - 蛋白質組學 - 系統生物學 - 比較基因組學
姑且不去引用生物信息學冗長的定義,以通俗的語言闡述其核心應用即是:隨著包括人類基因組計劃在內的生物基因組測序工程的里程碑式的進展,由此產生的包括生物體生老病死的生物數據以前所未有的速度遞增,目前已達到每14個月翻一番的速度。同時隨著互聯網的普及,數以百計的生物學資料庫如雨後春筍般迅速出現和成長。然而這些僅僅是原始生物信息的獲取,是生物信息學產業發展的初組階段,這一階段的生物信息學企業大都以出售生物資料庫為生。以人類基因組測序而聞名的塞萊拉公司即是這一階段的成功代表。
原始的生物信息資源挖掘出來後,生命科學工作者面臨著嚴峻的挑戰:數以億計的ACGT序列中包涵著什麼信息?基因組中的這些信息怎樣控制有機體的發育?基因組本身又是怎樣進化的?生物信息學產業的高級階段體現於此,人類從此進入了以生物信息學為中心的後基因組時代。結合生物信息學的新葯創新工程即是這一階段的典型應用。
Ⅱ 生物信息學實驗教學中如何巧用資料庫
生物信息學中數學佔了很大的比重。統計學,包括多元統計學,是生物信息學的數學基礎之一;概率論與隨機過程理論,如隱馬爾科夫鏈模型(HMM),在生物信息學中有重要應用;其他如用於序列比對的運籌學;蛋白質空間結構預測和分子對接研究中採用的最優化理論;研究DNA超螺旋結構的拓撲學;研究遺傳密碼和DNA序列的對稱性方面的群論等等.總之,各種數學理論或多或少在生物學研究中起到了相應的作用.但並非所有的數學方法在引入生物信息學中都能普遍成立的,以下以統計學和度量空間為例來說明. Simond在人類的認知一書中指出,人在解決問題時,一般並不去尋找最優的方法,而只要求找到一個滿意的方法.因為即使是解決最簡單的問題,要想得到次數最少,效能最高的解決方法也是非常困難的.最優方法和滿意方法之間的困難程度相差很大,後者不依賴於問題的空間,不需要進行全部搜索,而只要能達到解決的程度就可以了.正如前所述,面對大規模的序列和蛋白質結構數據集,要獲得全局結果,往往是即使演算法復雜度為線性時也不能夠得到好的結果,因此,要通過變換解空間或不依賴於問題的解空間獲得滿意解,生物信息學仍需要人工智慧和認知科學對人腦的進一步認識,並從中得到更好的啟發式方法. 問題規模不同的處理:Marvin Minsky在人工智慧研究中曾指出:小規模數據量的處理向大規模數據量推廣時,往往並非演算法上的改進能做到的,更多的是要做本質性的變化.這好比一個人爬樹,每天都可以爬高一些,但要想爬到月球,就必須採用其他方法一樣.在分子生物學中,傳統的實驗方法已不適應處理飛速增長的海量數據.同樣,在採用計算機處理上,也並非依靠原有的計算機演算法就能夠解決現有的數據挖掘問題.如在序列對齊(sequence Alignment)問題上,在小規模數據中可以採用動態規劃,而在大規模序列對齊時不得不引入啟發式方法,如BLAST,FASTA. 綜上所述,不難看出,生物信息學並不是一個足以樂觀的領域,究竟原因,是由於其是基於分子生物學與多種學科交叉而成的新學科,現有的形勢仍表現為各種學科的簡單堆砌,相互之間的聯系並不是特別的緊密。在處理大規模數據方面,沒有行之有效的一般性方法;而對於大規模數據內在的生成機制也沒有完全明了,這使得生物信息學的研究短期內很難有突破性的結果。那麼,要得到真正的解決,最終不能從計算機科學得到,真正地解決可能還是得從生物學自身,從數學上的新思路來獲得本質性的動力。毫無疑問,正如Dulbecco1986年所說:人類的DNA序列是人類的真諦,這個世界上發生的一切事情,都與這一序列息息相關。但要完全破譯這一序列以及相關的內容,我們還有相當長的路要走。
Ⅲ 生物信息學研究的內容
生物信息學的主要研究內容
1、序列比對(Alignment)
基本問題是比較兩個或兩個以上符號序列的相似性或不相似性。序列比對是生物信息學的基礎,非常重要。兩個序列的比對有較成熟的動態規劃演算法,以及在此基礎上編寫的比對軟體包BLAST和FASTA,可以免費下載使用。這些軟體在資料庫查詢和搜索中有重要的應用。
2、結構比對
基本問題是比較兩個或兩個以上蛋白質分子空間結構的相似性或不相似性。已有一些演算法。
3、蛋白質結構預測,包括2級和3級結構預測,是最重要的課題之一
從方法上來看有演繹法和歸納法兩種途徑。前者主要是從一些基本原理或假設出發來預測和研究蛋白質的結構和折疊過程。分子力學和分子動力學屬這一范疇。後者主要是從觀察和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構。同源模建(Homology)和指認(Threading)方法屬於這一范疇。雖然經過30餘年的努力,蛋白結構預測研究現狀遠遠不能滿足實際需要。
4、計算機輔助基因識別(僅指蛋白質編碼基因)。最重要的課題之一
基本問題是給定基因組序列後,正確識別基因的范圍和在基因組序列中的精確位置.這是最重要的課題之一,而且越來越重要。經過20餘年的努力,提出了數十種演算法,有十種左右重要的演算法和相應軟體上網提供免費服務。原核生物計算機輔助基因識別相對容易些,結果好一些。從具有較多內含子的真核生物基因組序列中正確識別出起始密碼子、剪切位點和終止密碼子,是個相當困難的問題,研究現狀不能令人滿意,仍有大量的工作要做。
5、非編碼區分析和DNA語言研究,是最重要的課題之一
在人類基因組中,編碼部分進展總序列的3~5%,其它通常稱為「垃圾」DNA,其實一點也不是垃圾,只是我們暫時還不知道其重要的功能。分析非編碼區DNA序列需要大膽的想像和嶄新的研究思路和方法。DNA序列作為一種遺傳語言,不僅體現在編碼序列之中,而且隱含在非編碼序列之中。
6、分子進化和比較基因組學,是最重要的課題之一
早期的工作主要是利用不同物種中同一種基因序列的異同來研究生物的進化,構建進化樹。既可以用DNA序列也可以用其編碼的氨基酸序列來做,甚至於可通過相關蛋白質的結構比對來研究分子進化。以上研究已經積累了大量的工作。近年來由於較多模式生物基因組測序任務的完成,為從整個基因組的角度來研究分子進化提供了條件。
7、序列重疊群(Contigs)裝配
一般來說,根據現行的測序技術,每次反應只能測出500或更多一些鹼基對的序列,這就有一個把大量的較短的序列全體構成了重疊群(Contigs)。逐步把它們拼接起來形成序列更長的重疊群,直至得到完整序列的過程稱為重疊群裝配。拼接EST數據以發現全長新基因也有類似的問題。已經證明,這是一個NP-完備
性演算法問題。
8、遺傳密碼的起源
遺傳密碼為什麼是現在這樣的?這一直是一個謎。一種最簡單的理論認為,密碼子與氨基酸之間的關系是生物進化歷史上一次偶然的事件而造成的,並被固定在現代生物最後的共同祖先里,一直延續至今。不同於這種「凍結」理論,有人曾分別提出過選擇優化、化學和歷史等三種學說來解釋遺傳密碼。隨著各種生物基因組測序任務的完成,為研究遺傳密碼的起源和檢驗上述理論的真偽提供了新的素材。
9、基於結構的葯物設計。是最重要的課題之一
人類基因組計劃的目的之一在於闡明人的約10萬種蛋白質的結構、功能、相互作用以及與各種人類疾病之間的關系,尋求各種治療和預防方法,包括葯物治療。基於生物大分子結構的葯物設計是生物信息學中的極為重要的研究領域。為了抑制某些酶或蛋白質的活性,在已知其3級結構的基礎上,可以利用分子對接演算法,在計算機上設計抑制劑分子,作為候選葯物。這種發現新葯物的方法有強大的生命力,也有著巨大的經濟效益
Ⅳ ATAC-seq專題---生信分析流程
ATAC-seq信息分析流程主要分為以下幾個部分:數據質控、序列比對、峰檢測、motif分析、峰注釋、富集分析,下面將對各部分內容進行展開講解。
下機數據經過過濾去除接頭含量過高或低質量的reads,得到clean reads用於後續分析。常見的trim軟體有Trimmomatic、Skewer、fastp等。fastp是一款比較新的軟體,使用時可以用--adapter_sequence/--adapter_sequence_r2參數傳入接頭序列,也可以不填這兩個參數,軟體會自動識別接頭並進行剪切。如:
fastp \
--in1 A1_1.fq.gz \ # read1原始fq文件
--out1 A1_clean_1.fq.gz \ # read1過濾後輸出的fq文件
--in2 A1_2.fq.gz \ # read2原始fq文件
--out2 A1_clean_2.fq.gz \ # read2過濾後輸出的fq文件
--cut_tail \ #從3』端向5』端滑窗,如果窗口內鹼基的平均質量值小於設定閾值,則剪切
--cut_tail_window_size=1 \ #窗口大小
--cut_tail_mean_quality=30 \ #cut_tail參數對應的平均質量閾值
--average_qual=30 \ #如果一條read的鹼基平均質量值小於該值即會被舍棄
--length_required=20 \ #經過剪切後的reads長度如果小於該值會被舍棄
fastp軟體的詳細使用方法可參考:https://github.com/OpenGene/fastp。fastp軟體對於trim結果會生成網頁版的報告,可參考官網示例http://opengene.org/fastp/fastp.html和http://opengene.org/fastp/fastp.json,也可以用FastQC軟體對trim前後的數據質量進行評估,FastQC軟體會對單端的數據給出結果,如果是PE測序需要分別運行兩次來評估read1和read2的數據質量。
如:
fastqc A1_1.fq.gz
fastqc A1_2.fq.gz
FastQC會對reads從鹼基質量、接頭含量、N含量、高重復序列等多個方面對reads質量進行評估,生成詳細的網頁版報告,可參考官網示例:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/good_sequence_short_fastqc.html
經過trim得到的reads可以使用BWA、bowtie2等軟體進行比對。首先需要確定參考基因組fa文件,對fa文件建立索引。不同的軟體有各自建立索引的命令,BWA軟體可以參考如下方式建立索引:
bwa index genome.fa
建立好索引後即可開始比對,ATAC-seq推薦使用mem演算法,輸出文件經samtools排序輸出bam:
bwa mem genome.fa A1_clean_1.fq.gz A1_clean_2.fq.gz
| samtools sort -O bam -T A1 > A1.bam
值得注意的是,在實驗過程中質體並不能完全去除,因此會有部分reads比對到質體序列上,需要去除比對到質體上的序列,去除質體序列可以通過samtools提取,具體方法如下:首先將不含質體的染色體名稱寫到一個chrlist文件中,一條染色體的名稱寫成一行,然後執行如下命令即可得到去除質體的bam
samtools view -b A1.bam $chrlist > A1.del_MT_PT.bam
用於後續分析的reads需要時唯一比對且去重復的,bwa比對結果可以通過MAPQ值來提取唯一比對reads,可以用picard、sambamba等軟體去除p,最終得到唯一比對且去重復的bam文件。
比對後得到的bam文件可以轉化為bigWig(bw)格式,通過可視化軟體進行展示。deeptools軟體可以實現bw格式轉化和可視化展示。首先需要在linux環境中安裝deeptools軟體,可以用以下命令實現bam向bw格式的轉換:
bamCoverage -b A1.bam -o A1.bw
此外,可以使用deeptools軟體展示reads在特定區域的分布,如:
computeMatrix reference-point \ # reference-pioint表示計算一個參照點附近的reads分布,與之相對的是scale-regions,計算一個區域附近的reads分布
--referencePoint TSS \#以輸入的bed文件的起始位置作為參照點
-S A1.bw \ #可以是一個或多個bw文件
-R gene.bed \ #基因組位置文件
-b 3000 \ #計算邊界為參考點上游3000bp
-a 3000 \ #計算邊界為參考點下游3000bp,與-b合起來就是繪制參考點上下游3000bp以內的reads分布
-o A1.matrix.mat.gz \ #輸出作圖數據名稱
#圖形繪制
plotHeatmap \
-m new_A1.matrix.mat.gz \ #上一步生成的作圖數據
-out A1.pdf \ # 輸出圖片名稱
繪圖結果展示:
MACS2能夠檢測DNA片斷的富集區域,是ATAC-seq數據call peak的主流軟體。峰檢出的原理如下:首先將所有的reads都向3'方向延伸插入片段長度,然後將基因組進行滑窗,計算該窗口的dynamic λ,λ的計算公式為:λlocal = λBG(λBG是指背景區域上的reads數目),然後利用泊松分布模型的公式計算該窗口的顯著性P值,最後對每一個窗口的顯著性P值進行FDR校正。默認校正後的P值(即qvalue)小於或者等於0.05的區域為peak區域。需要現在linux環境中安裝macs2軟體,然後執行以下命令:
macs2 callpeak \
-t A1.uni.dep.bam \ #bam文件
-n A1 \ # 輸出文件前綴名
--shift -100 \ #extsize的一半乘以-1
--extsize 200 \ #一般是核小體大小
--call-summits #檢測峰頂信息
註:以上參數參考文獻(Jie Wang,et.al.2018.「ATAC-Seq analysis reveals a widespread decrease of chromatin accessibility in age-related macular degeneration.」Nature Communications)
ATAC分析得到的peak是染色質上的開放區域,這些染色質開放區域常常預示著轉錄因子的結合,因此對peak區域進行motif分析很有意義。常見的motif分析軟體有homer和MEME。以homer軟體為例,首先在linux環境中安裝homer,然後用以下命令進行motif分析:
findMotifsGenome.pl \
A1_peaks.bed \ #用於進行motif分析的bed文件
genome.fa \ #參考基因組fa文件
A1 \ #輸出文件前綴
-size given \ #使用給定的bed區域位置進行分析,如果填-size -100,50則是用給定bed中間位置的上游100bp到下游50bp的區域進行分析
homer分析motif的原理及結果參見:http://homer.ucsd.e/homer/motif/index.html
根據motif與已知轉錄因子的富集情況可以繪制氣泡圖,從而可以看到樣本與已知轉錄因子的富集顯著性。
差異peak代表著比較組合染色質開放性有差異的位點,ChIP-seq和ATAC-seq都可以用DiffBind進行差異分析。DiffBind通過可以通過bam文件和peak的bed文件計算出peak區域標准化的readcount,可以選擇edgeR、DESeq2等模型進行差異分析。
在科研分析中我們往往需要將peak區域與基因聯系起來,也就是通過對peak進行注釋找到peak相關基因。常見的peak注釋軟體有ChIPseeker、homer、PeakAnnotator等。以ChIPseeker為例,需要在R中安裝ChIPseeker包和GenomicFeatures包,然後就可以進行分析了。
library(ChIPseeker)
library(GenomicFeatures)
txdb<- makeTxDbFromGFF(『gene.gtf』)#生成txdb對象,如果研究物種沒有已知的TxDb,可以用GenomicFeatures中的函數生成
peakfile <-readPeakFile(『A1_peaks.narrowPeak』)#導入需要注釋的peak文件
peakAnno <- annotatePeak(peakfile,tssRegion=c(-2000, 2000), TxDb=txdb)
# 用peak文件和txdb進行peak注釋,這里可以通過tssRegion定義TSS區域的區間
對於peak注釋的結果,也可以進行可視化展示,如:
p <- plotAnnoPie(peakAnno)
通過注釋得到的peak相關基因可以使用goseq、topGO等R包進行GO富集分析,用kobas進行kegg富集分析,也可以使用DAVID在線工具來完成富集分析。可以通過挑選感興趣的GO term或pathway進一步篩選候選基因。
Ⅳ 生物信息學對數據的處理一般是一個什麼樣的過程數據挖掘 數據整合
一、數據挖掘工具分類 數據挖掘工具根據其適用的范圍分為兩類:專用挖掘工具和通用挖掘工具。 專用數據挖掘工具是針對某個特定領域的問題提供解決方案,在涉及演算法的時候充分考慮了數據、需求的特殊性,並作了優化。對任何領域,都可以開發特定的數據挖掘工具。例如,IBM公司的AdvancedScout系統針對NBA的數據,幫助教練優化戰術組合。特定領域的數據挖掘工具針對性比較強,只能用於一種應用;也正因為針對性強,往往採用特殊的演算法,可以處理特殊的數據,實現特殊的目的,發現的知識可靠度也比較高。 通用數據挖掘工具不區分具體數據的含義,採用通用的挖掘演算法,處理常見的數據類型。通用的數據挖掘工具不區分具體數據的含義,採用通用的挖掘演算法,處理常見的數據類型。例如,IBM公司Almaden研究中心開發的QUEST系統,SGI公司開發的MineSet系統,加拿大SimonFraser大學開發的DBMiner系統。通用的數據挖掘工具可以做多種模式的挖掘,挖掘什麼、用什麼來挖掘都由用戶根據自己的應用來選擇。 二、數據挖掘工具選擇需要考慮的問題 數據挖掘是一個過程,只有將數據挖掘工具提供的技術和實施經驗與企業的業務邏輯和需求緊密結合,並在實施的過程中不斷的磨合,才能取得成功,因此...
Ⅵ 怎麼利用生物信息學分析公共數據
生物信息學(Bioinformatics)是生物學與計算機科學以及應用數學等學科相互交叉而
形
成的一門新興學科。它通過對生物學實驗數據的獲取、加工、存儲、檢索與分析,進而
達
到揭示這些數據所蘊含的生物學意義的目的。在推動生物信息學發展的各種動力中,人
類
基因組計劃(HGP)和生物醫葯工業是其中的兩個主要力量。
就人類基因組來說,得到序列僅僅是第一步,後一步的工作是所謂後基因組時代 (Post
-
genome Era) 的任務,即收集、整理、檢索和分析序列中表達的蛋白質結構與功能的信
息
,找出規律。近幾年來在公共資料庫中DNA序列數據的數量以每年1.8倍的速度快速增長
,
到1997年底已經超過1.2×109bp。對如此巨量的數據進行存儲、分類、檢索、比較,並
預
測可能的基因和基因產物的結構和功能,如果沒有計算機參與處理,那是不可想像的。
生物醫葯工業也是推動生物信息學發展的重要動力。HGP所推動的大規模DNA測序也為生
物
醫葯工業提供了大量可用於新葯開發的原材料。有些基因產物可以直接作為葯物,而有
些
基因則可以成為葯物作用的對象。生物信息學為分子生物學家提供了大量對基因序列進
行
分析的工具,不但可以從資料的獲取、基因功能的預測、葯物篩選過程中的信息處理等
方
面大大加快新葯開發的進程,而且可以大大加快傳統的基因發現和研究,因而成為各贏
利
性研究機構和醫葯公司爭奪基因專利的重要工具,這一競爭又反過來極大的刺激了生物
信
息學的發展。
2、研究內容
生物信息學與計算生物學或生物計算有著密切的關系,但又不盡相同,目前歸入生物信
息
學研究領域的大致有以下幾個方面:
(1)各種生物資料庫的建立和管理。這是一切生物信息學工作的基礎,通常要有計算機
科
學背景的專業人員與生物學家密切合作。
(2)資料庫介面和檢索工具的研製。資料庫的內容來自萬千生物學者的日積月累,最終
又
為生物學者們所用。但不能要求一般生物學工作者具有高深的計算機和網路知識,因此
,
必須發展查詢資料庫和向庫里提供數據的方便介面。這是專業人員才能勝任的工作,通
常
在生物信息中心裡進行。
(3)人類基因組計劃的實施,配合大規模的DNA自動測序,對信息的採集和處理提出了
空
前的要求。從各種圖譜的分析,大量序列片段的拼接組裝,尋找基因和預測結構與功能
,
到數據和研究結果的視像化,無不需要高效率的演算法和程序。研究新演算法、發展方便適
用
的程序,是生物信息學的日常任務。
(4)生物信息學最重要的任務,是從海量數據中提取新知識。這首先是從DNA序列中識
別
編碼蛋白質的基因,以及調控基因表達的各種信號。其次,從基因組編碼序列翻譯出的
蛋
白質序列的數目急劇增加,根本不可能用實驗方法一一確定它們的結構和功能。從已經
積
累的數據和知識出發,預測蛋白質的結構和功能,成為常規的研究任務。
(5)DNA晶元和微陣列的發展,把一定組織或生物體內萬千基因時空表達的研究提上日
程
.研究基因表達過程中的聚群關系,從中提取調控網路和代謝途徑的知識,進而從整體
上
模擬細胞內的全部互相輔合的生化反應,在亞細胞層次理解生命活動。只有掌握已有數
據
、發展嶄新演算法,才能創造新的知識。這是生物信息學剛剛掀開的新篇章。
Ⅶ 什麼是生物信息學
生物信息學
一, 生物信息學發展簡介
生物信息學是建立在分子生物學的基礎上的,因此,要了解生物信息學,就
必須先對分子生物學的發展有一個簡單的了解.研究生物細胞的生物大分子的結
構與功能很早就已經開始,1866年孟德爾從實驗上提出了假設:基因是以生物
成分存在[1],1871年Miescher從死的白細胞核中分離出脫氧核糖核酸(DNA),
在Avery和McCarty於1944年證明了DNA是生命器官的遺傳物質以前,人們
仍然認為染色體蛋白質攜帶基因,而DNA是一個次要的角色.
1944年Chargaff發現了著名的Chargaff規律,即DNA中鳥嘌呤的量與胞嘧
定的量總是相等,腺嘌呤與胸腺嘧啶的量相等.與此同時,Wilkins與Franklin
用X射線衍射技術測定了DNA纖維的結構.1953年James Watson 和Francis
Crick在Nature雜志上推測出DNA的三維結構(雙螺旋).DNA以磷酸糖鏈形
成發雙股螺旋,脫氧核糖上的鹼基按Chargaff規律構成雙股磷酸糖鏈之間的鹼基
對.這個模型表明DNA具有自身互補的結構,根據鹼基對原則,DNA中貯存的
遺傳信息可以精確地進行復制.他們的理論奠定了分子生物學的基礎.
DNA雙螺旋模型已經預示出了DNA復制的規則,Kornberg於1956年從大
腸桿菌(E.coli)中分離出DNA聚合酶I(DNA polymerase I),能使4種dNTP連接
成DNA.DNA的復制需要一個DNA作為模板.Meselson與Stahl(1958)用實驗
方法證明了DNA復制是一種半保留復制.Crick於1954年提出了遺傳信息傳遞
的規律,DNA是合成RNA的模板,RNA又是合成蛋白質的模板,稱之為中心
法則(Central dogma),這一中心法則對以後分子生物學和生物信息學的發展都起
到了極其重要的指導作用.
經過Nirenberg和Matthai(1963)的努力研究,編碼20氨基酸的遺傳密碼
得到了破譯.限制性內切酶的發現和重組DNA的克隆(clone)奠定了基因工程
的技術基礎.
正是由於分子生物學的研究對生命科學的發展有巨大的推動作用,生物信息
學的出現也就成了一種必然.
2001年2月,人類基因組工程測序的完成,使生物信息學走向了一個高潮.
由於DNA自動測序技術的快速發展,DNA資料庫中的核酸序列公共數據量以每
天106bp速度增長,生物信息迅速地膨脹成數據的海洋.毫無疑問,我們正從一
個積累數據向解釋數據的時代轉變,數據量的巨大積累往往蘊含著潛在突破性發
現的可能,"生物信息學"正是從這一前提產生的交叉學科.粗略地說,該領域
的核心內容是研究如何通過對DNA序列的統計計算分析,更加深入地理解DNA
序列,結構,演化及其與生物功能之間的關系,其研究課題涉及到分子生物學,
分子演化及結構生物學,統計學及計算機科學等許多領域.
生物信息學是內涵非常豐富的學科,其核心是基因組信息學,包括基因組信
息的獲取,處理,存儲,分配和解釋.基因組信息學的關鍵是"讀懂"基因組的核
苷酸順序,即全部基因在染色體上的確切位置以及各DNA片段的功能;同時在
發現了新基因信息之後進行蛋白質空間結構模擬和預測,然後依據特定蛋白質的
功能進行葯物設計[2].了解基因表達的調控機理也是生物信息學的重要內容,根
據生物分子在基因調控中的作用,描述人類疾病的診斷,治療內在規律.它的研
究目標是揭示"基因組信息結構的復雜性及遺傳語言的根本規律",解釋生命的遺
傳語言.生物信息學已成為整個生命科學發展的重要組成部分,成為生命科學研
究的前沿.
二, 生物信息學的主要研究方向
生物信息學在短短十幾年間,已經形成了多個研究方向,以下簡要介紹一些
主要的研究重點.
1,序列比對(Sequence Alignment)
序列比對的基本問題是比較兩個或兩個以上符號序列的相似性或不相似
性.從生物學的初衷來看,這一問題包含了以下幾個意義[3]:
從相互重疊的序列片斷中重構DNA的完整序列.
在各種試驗條件下從探測數據(probe data)中決定物理和基因圖
存貯,遍歷和比較資料庫中的DNA序列
比較兩個或多個序列的相似性
在資料庫中搜索相關序列和子序列
尋找核苷酸(nucleotides)的連續產生模式
找出蛋白質和DNA序列中的信息成分
序列比對考慮了DNA序列的生物學特性,如序列局部發生的插入,刪除(前
兩種簡稱為indel)和替代,序列的目標函數獲得序列之間突變集最小距離加權
和或最大相似性和,對齊的方法包括全局對齊,局部對齊,代溝懲罰等.兩個
序列比對常採用動態規劃演算法,這種演算法在序列長度較小時適用,然而對於海
量基因序列(如人的DNA序列高達109bp),這一方法就不太適用,甚至採用算
法復雜性為線性的也難以奏效.因此,啟發式方法的引入勢在必然,著名的
BALST和FASTA演算法及相應的改進方法均是從此前提出發的.
2, 蛋白質結構比對和預測
基本問題是比較兩個或兩個以上蛋白質分子空間結構的相似性或不相似性.
蛋白質的結構與功能是密切相關的,一般認為,具有相似功能的蛋白質結構一般
相似.蛋白質是由氨基酸組成的長鏈,長度從50到1000~3000AA(Amino Acids),
蛋白質具有多種功能,如酶,物質的存貯和運輸,信號傳遞,抗體等等.氨基酸
的序列內在的決定了蛋白質的3維結構.一般認為,蛋白質有四級不同的結構.
研究蛋白質結構和預測的理由是:醫葯上可以理解生物的功能,尋找docking
drugs的目標,農業上獲得更好的農作物的基因工程,工業上有利用酶的合成.
直接對蛋白質結構進行比對的原因是由於蛋白質的3維結構比其一級結構
在進化中更穩定的保留,同時也包含了較AA序列更多的信息.
蛋白質3維結構研究的前提假設是內在的氨基酸序列與3維結構一一對應
(不一定全真),物理上可用最小能量來解釋.
從觀察和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構.同
源建模(homology modeling)和指認(Threading)方法屬於這一范疇.同源建模用
於尋找具有高度相似性的蛋白質結構(超過30%氨基酸相同),後者則用於比較
進化族中不同的蛋白質結構.
然而,蛋白結構預測研究現狀還遠遠不能滿足實際需要.
3, 基因識別,非編碼區分析研究.
基因識別的基本問題是給定基因組序列後,正確識別基因的范圍和在基因組
序列中的精確位置.非編碼區由內含子組成(introns),一般在形成蛋白質後被丟
棄,但從實驗中,如果去除非編碼區,又不能完成基因的復制.顯然,DNA序
列作為一種遺傳語言,既包含在編碼區,又隱含在非編碼序列中.分析非編碼
區DNA序列目前沒有一般性的指導方法.
在人類基因組中,並非所有的序列均被編碼,即是某種蛋白質的模板,已
完成編碼部分僅占人類基因總序列的3~5%,顯然,手工的搜索如此大的基因序
列是難以想像的.
偵測密碼區的方法包括測量密碼區密碼子(codon)的頻率,一階和二階馬爾
可夫鏈,ORF(Open Reading Frames),啟動子(promoter)識別,HMM(Hidden
Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子進化和比較基因組學
分子進化是利用不同物種中同一基因序列的異同來研究生物的進化,構建進
化樹.既可以用DNA序列也可以用其編碼的氨基酸序列來做,甚至於可通過相
關蛋白質的結構比對來研究分子進化,其前提假定是相似種族在基因上具有相似
性.通過比較可以在基因組層面上發現哪些是不同種族中共同的,哪些是不同的.
早期研究方法常採用外在的因素,如大小,膚色,肢體的數量等等作為進化
的依據.近年來較多模式生物基因組測序任務的完成,人們可從整個基因組的角
度來研究分子進化.在匹配不同種族的基因時,一般須處理三種情況:
Orthologous: 不同種族,相同功能的基因
Paralogous: 相同種族,不同功能的基因
Xenologs: 有機體間採用其他方式傳遞的基因,如被病毒注入的基因.
這一領域常採用的方法是構造進化樹,通過基於特徵(即DNA序列或蛋白
質中的氨基酸的鹼基的特定位置)和基於距離(對齊的分數)的方法和一些傳統
的聚類方法(如UPGMA)來實現.
5, 序列重疊群(Contigs)裝配
根據現行的測序技術,每次反應只能測出500 或更多一些鹼基對的序列,
如人類基因的測量就採用了短槍(shortgun)方法,這就要求把大量的較短的序列
全體構成了重疊群(Contigs).逐步把它們拼接起來形成序列更長的重疊群,直
至得到完整序列的過程稱為重疊群裝配.從演算法層次來看,序列的重疊群是一個
NP-完全問題.
6, 遺傳密碼的起源
通常對遺傳密碼的研究認為,密碼子與氨基酸之間的關系是生物進化歷史上
一次偶然的事件而造成的,並被固定在現代生物的共同祖先里,一直延續至今.
不同於這種"凍結"理論,有人曾分別提出過選擇優化,化學和歷史等三種學說
來解釋遺傳密碼.隨著各種生物基因組測序任務的完成,為研究遺傳密碼的起源
和檢驗上述理論的真偽提供了新的素材.
7, 基於結構的葯物設計
人類基因工程的目的之一是要了解人體內約10萬種蛋白質的結構,功能,
相互作用以及與各種人類疾病之間的關系,尋求各種治療和預防方法,包括葯物
治療.基於生物大分子結構及小分子結構的葯物設計是生物信息學中的極為重要
的研究領域.為了抑制某些酶或蛋白質的活性,在已知其蛋白質3級結構的基礎
上,可以利用分子對齊演算法,在計算機上設計抑制劑分子,作為候選葯物.這一
領域目的是發現新的基因葯物,有著巨大的經濟效益.
8, 其他
如基因表達譜分析,代謝網路分析;基因晶元設計和蛋白質組學數據分析等,
逐漸成為生物信息學中新興的重要研究領域;在學科方面,由生物信息學衍生的
學科包括結構基因組學,功能基因組學,比較基因組學,蛋白質學,葯物基因組
學,中葯基因組學,腫瘤基因組學,分子流行病學和環境基因組學.
從現在的發展不難看出,基因工程已經進入了後基因組時代.我們也有應對
與生物信息學密切相關的如機器學習,和數學中可能存在的誤導有一個清楚的認
識.
三, 生物信息學與機器學習
生物信息的大規模給數據挖掘提出了新課題和挑戰,需要新的思想的加入.
常規的計算機演算法仍可以應用於生物數據分析中,但越來越不適用於序列分析問
題.究竟原因,是由於生物系統本質上的模型復雜性及缺乏在分子層上建立的完
備的生命組織理論.
西蒙曾給出學習的定義:學習是系統的變化,這種變化可使系統做相同工作
時更有效[4].機器學習的目的是期望能從數據中自動地獲得相應的理論,通過采
用如推理,模型擬合及從樣本中學習,尤其適用於缺乏一般性的理論,"雜訊"
模式,及大規模數據集.因此,機器學習形成了與常規方法互補的可行的方法.
機器學習使得利用計算機從海量的生物信息中提取有用知識,發現知識成為可能
[5].
機器學習方法在大樣本,多向量的數據分析工作中發揮著日益重要的作用,
而目前大量的基因資料庫處理需要計算機能自動識別,標注,以避免即耗時又花
費巨大的人工處理方法.早期的科學方法—觀測和假設----面對高數據的體積,
快速的數據獲取率和客觀分析的要求---已經不能僅依賴於人的感知來處理了.因
而,生物信息學與機器學習相結合也就成了必然.
機器學習中最基本的理論框架是建立在概率基礎上的,從某種意義來說,是
統計模型擬合的延續,其目的均為提取有用信息.機器學習與模式識別和統計推
理密切相關.學習方法包括數據聚類,神經網路分類器和非線性回歸等等.隱馬
爾可夫模型也廣泛用於預測DNA的基因結構.目前研究重心包括:1)觀測和
探索有趣的現象.目前ML研究的焦點是如何可視化和探索高維向量數據.一般
的方法是將其約簡至低維空間,如常規的主成分分析(PCA),核主成分分析
(KPCA),獨立成分分析(Independent component analysis),局部線性嵌套(Locally
Linear embedding).2)生成假設和形式化模型來解釋現象[6].大多數聚類方法可
看成是擬合向量數據至某種簡單分布的混合.在生物信息學中聚類方法已經用於
microarray數據分析中,癌症類型分類及其他方向中.機器學習也用於從基因數
據庫中獲得相應的現象解釋.
機器學習加速了生物信息學的進展,也帶了相應的問題.機器學習方法大多
假定數據符合某種相對固定的模型,而一般數據結構通常是可變的,在生物信息
學中尤其如此,因此,有必要建立一套不依賴於假定數據結構的一般性方法來尋
找數據集的內在結構.其次,機器學習方法中常採用"黑箱"操作,如神經網路
和隱馬爾可夫模型,對於獲得特定解的內在機理仍不清楚.
四, 生物信息學的數學問題
生物信息學中數學佔了很大的比重.統計學,包括多元統計學,是生物信息
學的數學基礎之一;概率論與隨機過程理論,如近年來興起的隱馬爾科夫鏈模型
(HMM),在生物信息學中有重要應用;其他如用於序列比對的運籌學;蛋白質
空間結構預測和分子對接研究中採用的最優化理論;研究DNA超螺旋結構的拓
撲學;研究遺傳密碼和DNA序列的對稱性方面的群論等等.總之,各種數學理
論或多或少在生物學研究中起到了相應的作用.
但並非所有的數學方法在引入生物信息學中都能普遍成立的,以下以統計學
和度量空間為例來說明.
1, 統計學的悖論
數學的發展是伴隨悖論而發展的.對於進化樹研究和聚類研究中最顯著的悖
論莫過於均值了,如圖1:
圖1 兩組同心圓的數據集
圖1是兩組同心圓構成的數據集,顯然,兩組數據集的均值均在圓點,這也
就說明了要採用常規的均值方法不能將這兩類分開,也表明均值並不能帶來更多
的數據的幾何性質.那麼,如果數據呈現類似的特有分布時,常有的進化樹演算法
和聚類演算法(如K-均值)往往會得錯誤的結論.統計上存在的陷阱往往是由於
對數據的結構缺乏一般性認識而產生的.
2, 度量空間的假設
在生物信息學中,進化樹的確立,基因的聚類等都需要引入度量的概念.舉
例來說,距離上相近或具有相似性的基因等具有相同的功能,在進化樹中滿足分
值最小的具有相同的父系,這一度量空間的前提假設是度量在全局意義下成立.
那麼,是否這種前提假設具有普適性呢
我們不妨給出一般的描述:假定兩個向量為A,B,其中,
,則在假定且滿足維數間線性無關的前提下,兩個
向量的度量可定義為:
(1)
依據上式可以得到滿足正交不變運動群的歐氏度量空間,這也是大多數生物信息
學中常採用的一般性描述,即假定了變數間線性無關.
然而,這種假設一般不能正確描述度量的性質,尤其在高維數據集時,不考
慮數據變數間的非線性相關性顯然存在問題,由此,我們可以認為,一個正確的
度量公式可由下式給出:
(2)
上式中採用了愛因斯坦和式約定,描述了變數間的度量關系.後者在滿足
(3)
時等價於(1),因而是更一般的描述,然而問題在於如何准確描述變數間的非線
性相關性,我們正在研究這個問題.
五, 幾種統計學習理論在生物信息學中應用的困難
生物信息學中面對的數據量和資料庫都是規模很大的,而相對的目標函數卻
一般難以給出明確的定義.生物信息學面臨的這種困難,可以描述成問題規模的
巨大以及問題定義的病態性之間的矛盾,一般從數學上來看,引入某個正則項來
改善性能是必然的[7].以下對基於這一思想產生的統計學習理論[8],Kolmogorov
復雜性[98]和BIC(Bayesian Information Criterion)[109]及其存在的問題給出簡要介
紹.
支持向量機(SVM)是近來較熱門的一種方法,其研究背景是Vapnik的統計
學習理論,是通過最大化兩個數據集的最大間隔來實現分類,對於非線性問題則
採用核函數將數據集映射至高維空間而又無需顯式描述數據集在高維空間的性
質,這一方法較之神經方法的好處在於將神經網路隱層的參數選擇簡化為對核函
數的選擇,因此,受到廣泛的注意.在生物信息學中也開始受到重視,然而,核
函數的選擇問題本身是一個相當困難的問題,從這個層次來看,最優核函數的選
擇可能只是一種理想,SVM也有可能象神經網路一樣只是機器學習研究進程中
又一個大氣泡.
Kolmogorov復雜性思想與統計學習理論思想分別從不同的角度描述了學習
的性質,前者從編碼的角度,後者基於有限樣本來獲得一致收斂性.Kolmogorov
復雜性是不可計算的,因此由此衍生了MDL原則(最小描述長度),其最初只
適用於離散數據,最近已經推廣至連續數據集中,試圖從編碼角度獲得對模型參
數的最小描述.其缺陷在於建模的復雜性過高,導致在大數據集中難以運用.
BIC准則從模型復雜性角度來考慮,BIC准則對模型復雜度較高的給予大的
懲罰,反之,懲罰則小,隱式地體現了奧卡姆剃刀("Occam Razor")原理,近
年也廣泛應用於生物信息學中.BIC准則的主要局限是對參數模型的假定和先驗
的選擇的敏感性,在數據量較大時處理較慢.因此,在這一方面仍然有許多探索
的空間.
六, 討論與總結
人類對基因的認識,從以往的對單個基因的了解,上升到在整個基因組水平
上考察基因的組織結構和信息結構,考察基因之間在位置,結構和功能上的相互
關系.這就要求生物信息學在一些基本的思路上要做本質的觀念轉變,本節就這
些問題做出探討和思索.
啟發式方法:
Simond在人類的認知一書中指出,人在解決問題時,一般並不去尋找最優
的方法,而只要求找到一個滿意的方法.因為即使是解決最簡單的問題,要想得
到次數最少,效能最高的解決方法也是非常困難的.最優方法和滿意方法之間的
困難程度相差很大,後者不依賴於問題的空間,不需要進行全部搜索,而只要能
達到解決的程度就可以了.正如前所述,面對大規模的序列和蛋白質結構數據集,
要獲得全局結果,往往是即使演算法復雜度為線性時也不能夠得到好的結果,因此,
要通過變換解空間或不依賴於問題的解空間獲得滿意解,生物信息學仍需要人工
智能和認知科學對人腦的進一步認識,並從中得到更好的啟發式方法.
問題規模不同的處理:
Marvin Minsky在人工智慧研究中曾指出:小規模數據量的處理向大規模數
據量推廣時,往往並非演算法上的改進能做到的,更多的是要做本質性的變化.這
好比一個人爬樹,每天都可以爬高一些,但要想爬到月球,就必須採用其他方法
一樣.在分子生物學中,傳統的實驗方法已不適應處理飛速增長的海量數據.同
樣,在採用計算機處理上,也並非依靠原有的計算機演算法就能夠解決現有的數據
挖掘問題.如在序列對齊(sequence Alignment)問題上,在小規模數據中可以採用
動態規劃,而在大規模序列對齊時不得不引入啟發式方法,如BALST,FASTA.
樂觀中的隱擾
生物信息學是一門新興學科,起步於20世紀90年代,至今已進入"後基因
組時代",目前在這一領域的研究人員均呈普遍樂觀態度,那麼,是否存在潛在
的隱擾呢
不妨回顧一下早期人工智慧的發展史[11],在1960年左右,西蒙曾相信不出
十年,人類即可象完成登月一樣完成對人的模擬,造出一個與人智能行為完全相
同的機器人.而至今為止,這一諾言仍然遙遙無期.盡管人工智慧研究得到的成
果已經滲入到各個領域,但對人的思維行為的了解遠未完全明了.從本質來看,
這是由於最初人工智慧研究上定位錯誤以及沒有從認識論角度看清人工智慧的
本質造成的;從研究角度來看,將智能行為還原成一般的形式化語言和規則並不
能完整描述人的行為,期望物理科學的成功同樣在人工智慧研究中適用並不現
實.
反觀生物信息學,其目的是期望從基因序列上解開一切生物的基本奧秘,從
結構上獲得生命的生理機制,這從哲學上來看是期望從分子層次上解釋人類的所
有行為和功能和致病原因.這類似於人工智慧早期發展中表現的樂觀行為,也來
自於早期分子生物學,生物物理和生物化學的成就.然而,從本質上來講,與人
工智能研究相似,都是希望將生命的奧秘還原成孤立的基因序列或單個蛋白質的
功能,而很少強調基因序列或蛋白質組作為一個整體在生命體中的調控作用.我
們因此也不得不思考,這種研究的最終結果是否能夠支撐我們對生物信息學的樂
觀呢 現在說肯定的話也許為時尚早.
綜上所述,不難看出,生物信息學並不是一個足以樂觀的領域,究竟原因,
是由於其是基於分子生物學與多種學科交叉而成的新學科,現有的形勢仍表現為
各種學科的簡單堆砌,相互之間的聯系並不是特別的緊密.在處理大規模數據方
面,沒有行之有效的一般性方法;而對於大規模數據內在的生成機制也沒有完全
明了,這使得生物信息學的研究短期內很難有突破性的結果.那麼,要得到真正
的解決,最終不能從計算機科學得到,真正地解決可能還是得從生物學自身,從
數學上的新思路來獲得本質性的動力.
毫無疑問,正如Dulbecco1986年所說:"人類的DNA序列是人類的真諦,
這個世界上發生的一切事情,都與這一序列息息相關".但要完全破譯這一序列
以及相關的內容,我們還有相當長的路要走.
(來源 ------[InfoBio.org | 生物信息學研討組])http://www.infobio.org
生物信息學(Bioinformatics)是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一。其研究重點主要體現在基因組學(Genomics)和蛋白學(Proteomics)兩方面,具體說就是從核酸和蛋白質序列出發,分析序列中表達的結構功能的生物信息。
生物信息學是一門利用計算機技術研究生物系統之規律的學科。
目前的生物信息學基本上只是分子生物學與信息技術(尤其是網際網路技術)的結合體。生物信息學的研究材料和結果就是各種各樣的生物學數據,其研究工具是計算機,研究方法包括對生物學數據的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計算、模擬)。
1990年代以來,伴隨著各種基因組測序計劃的展開和分子結構測定技術的突破和Internet的普及,數以百計的生物學資料庫如雨後春筍般迅速出現和成長。對生物信息學工作者提出了嚴峻的挑戰:數以億計的ACGT序列中包涵著什麼信息?基因組中的這些信息怎樣控制有機體的發育?基因組本身又是怎樣進化的?
生物信息學的另一個挑戰是從蛋白質的氨基酸序列預測蛋白質結構。這個難題已困擾理論生物學家達半個多世紀,如今找到問題答案要求正變得日益迫切。諾貝爾獎獲得者W. Gilbert在1991年曾經指出:「傳統生物學解決問題的方式是實驗的。現在,基於全部基因都將知曉,並以電子可操作的方式駐留在資料庫中,新的生物學研究模式的出發點應是理論的。一個科學家將從理論推測出發,然後再回到實驗中去,追蹤或驗證這些理論假設」。
生物信息學的主要研究方向: 基因組學 - 蛋白質組學 - 系統生物學 - 比較基因組學
Ⅷ 列舉常用的生物信息學資料庫及序列對比常用軟體及特點
一般來說所用的分析工具有在線跟下載的 下面簡要列舉一些常用在線軟體的使用 1、使用VecScreen工具,分析下列未知序列,輸出序列長度、載體序列的區域、可能使用的克隆載體都有哪些。一、步驟:
打開google 首頁,搜索VecScreen,進入VecScreen首頁,復制序列,運行,View report。
二、結果:
輸出序列長度918bp,
載體序列的區域456bp——854bp.
克隆載體:M13mp18 phage,pGEM-13Zf(+),pBR322,pRKW2。
2、使用相應工具,分析下列未知序列的重復序列情況,輸出重復序列的區域、包含的所有重復序列的類型、重復序列的總長度及Masked Sequence。
一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的。
進入google首頁,搜索RepeatMasker,進入RepeatMasker主頁,進入RepeatMasking,復制序列,DNA source選擇human,運行!點擊超鏈接,在結果中選擇
Annotation File :RM2sequpload_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,輸出CpG島的長度、區域、GC數量、所佔的百分比及Obs/Exp值。一、步驟:
進入google首頁,搜索CpGPlot,進入CpGPlot主頁,program中選擇cpgreport復制序列,運行!
二、結果:
CpG島的長度:385bp
區域:48——432;
GC數量:Sum C+G=297,百分數=77.14
Obs/Exp:1.01
4、預測下面序列的啟動子,輸出可能的啟動子序列及相應的位置。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的
進入google首頁,搜索Neural Network Promoter Prediction,進入主頁,復制序列,選擇eukaryote,運行!
二、結果:
位置:711—761 ,1388—1438,1755—1805;
5、運用Splice Site Prediction工具分析下面序列,分別輸出內含子-外顯子剪接位點給體和受體的區域及剪接處位置的鹼基。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的
進入google首頁,搜索Splice Site Prediction,進入主頁,復制序列。Organism選擇Human or other。其他默認,運行!
二、結果:
供體:
受體:
6、對下面序列進行六框翻譯,利用GENESCAN綜合分析(首先確定給定序列的物種來源)哪個ORF是正確的,輸出六框翻譯(抓圖)和GENESCAN結果(包括predicted genes/exons 和 predicted peptide sequence(s) 兩個部分)。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是Zea的
進入google首頁;搜索NCBI,進入主頁,選擇all resources(A~Z),選擇O,選擇ORF finder。復制序列,默認,運行!
二、結果:ORF圖
三、步驟:進入google首頁,搜索GENESCAN,進入主頁,Organism:Maize, ,其他默認,運行!
四、結果:
G7、進入REBASE限制性內切酶資料庫,輸出AluI、MboI、EcoI三種內酶的Recognition Sequence和Type。
一、步驟:進入google首頁,google in English,搜索REBASE,進入主頁, 分別輸入AluI、MboI、EcoI,運行!
在MboI中選擇第一個,EcoI選擇第二個。
二、結果:
ENSCAN圖
8、使用引物設計工具,針對下列未知序列設計一對引物,要求引物長度為20-25bp,擴增產物長度300-500bp,退火溫度為50-60℃。請寫出選擇的一對引物(Forward Primer and Reverse Primer)、及相應的GC含量、引物的位點、Tm值和產物長度。一、步驟:進入google首頁,搜索genefisher,進入主頁,復制fasta格式,chechk input, sunmit, ; ;設置一下引物長度為20-25bp,擴增產物長度300-500bp,退火溫度為50-60℃; 。
二、結果:
GC含量:
引物的位點:
Tm值:
產物長度:。
9、將下面的序列用NEBcutter 2.0工具分析,用產生平末端及有四個酶切位點的酶進行酶切,並用抓圖提交膠圖(view gel),要求1.4% agarose和Marker為100bp DNA Ladder。
一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST,得知是linear。
進入google首頁,搜索NEBcutter 2.0,進入主頁,選擇linear,運行!選擇custom digest, ,把「1」改為「4」,選擇平末端,後digest。View gel。選擇1.4% agarose和Marker為100bp。
二、結果:
然後就是蛋白質的了一般都在expasy里swiss-prot 適用於檢索的 compute pi/mw 求理論分子量 分子量 protparam物理化學性質 protscale親水性疏水性 peptidemass分析蛋白酶和化學試劑處理後的內切產物
NCBI(www.ncbi.nlm.nih.gov)-GenBank資料庫
資料庫相似性搜索——核酸序列與核酸資料庫比較(BLASTN)
蛋白質序列與資料庫中蛋白質序列比較(BLASTP)
兩序列比對(Align two sequences)
DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)
分析實驗序列外顯子部分——GENSCAN(http://genes.mit.e/GENSCAN.html)
分析實驗序列的可能酶切位點——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
註: Custom digest -- view gel
限制性內切酶資料庫——REBASE(http://rebase.neb.com/rebase/rebase.html)
設計引物擴增實驗序列——Genefisher
Primer 3
蛋白質序列分析及結構預測:
1.預測蛋白質的分子量及等電點:ExPASy(Compute pI/Mw)
2.分析蛋白質的基本物理化學性質:ExPASy(ProtParam)
3.分析蛋白質的親水性和疏水性:ExPASy(ProtScale)
4.分析蛋白質在各種蛋白酶和各種化學試劑處理後的內切產物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白質的信號肽:ExPASy(SignalP)
6.預測蛋白質的二級結構:ExPASy(Jpred 3)
多物種分子系統發育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W
人脂聯素蛋白質序列:NP_004788
人類胰島素生長因子IB前體:P05019
Ⅸ 生物信息學主要處理和分析哪些高通量數據類型
高通量數據類型主要包括基因晶元和基因測序,我估計你想知道的是具體的內容。
具體的內容其實是指的高通量測序技術的應用,例如microarray,RNA-Seq,Exome-Seq,Target-Seq,Whole-genome-sequencing,宏基因組,16S RNA,microRNA,lncRNA測序等。
研究的問題就更五花八門了,像現在精準醫療的概念很火,主要是以基因測序為入口,後面的應用,例如產前診斷,孕前診斷等,甚至像親子鑒定,腫瘤靶標等都可以通過生物信息學的分析手段來搞定。
生物信息分析分為幾個層次,第一個層次基本上就是用別人做好的成熟軟體,直接分析出你要的結果,再深入就是你會根據問題找到更合適的一些軟體或者模塊,自己組建一些分析流程,包括自己寫一些輔助的程序腳本,更深入的層次就是市面上沒有符合你要求的軟體或者統計演算法,你依據自己的需求,定製自己的分析過程,自己從頭開始寫基礎程序,寫統計演算法,寫模型等。到了這個程度就沒有那麼多限制了,主要比的是個人的思維想法以及眼界開闊程度。
現在也很多生物信息的分析方法應用在大數據的各個領域。本質是各種統計思維方法的實現,找出特定的模式結果。
Ⅹ 生物信息學軟體資料庫的運用
首先可以拿這個序列做blastn和blastx,在NCBI網站上:http://blast.ncbi.nlm.nih.gov/Blast.cgi;
根據blastn或者blastx的結果,根據序列比對結果判斷這個DNA序列是編碼蛋白質的基因還是其他的類型的DNA;
如果是編碼蛋白質的基因序列的話,根據blastx結果,可以找到編碼區,並獲得它編碼的氨基酸序列,也可以得到其他一些信息。
如果是非編碼區的DNA序列的話,那就根據blastn的比對結果判斷這個序列的來源。