A. NCBI有多少資料庫,分別有什麼作用
在生物醫學信息學領域,資料庫和服務的定義與計算機領域有很大的不同,如果要問NCBI過去,現在或將來會有多少資料庫,恐怕連NCBI自己都說不清楚。要是一個一個資料庫講下來,9999個字肯定不夠用。這里有一個列表供您參考http://www.ncbi.nlm.nih.gov/guide/all/。
NCBI的產生和發展是在美國和全球生物學高速發展,高通量數據急速產生,而缺乏有效的數據分析方法的背景下產生,起初它主要任務是數據的存儲和查詢。只不過其存儲的數據大多以高通量數據為主,例如基因測序,基因組,SNP, 基因晶元,小分子化合物和GWAS數據等。這些數據的共享,極大地促進了生物信息學發展。
按照數據->樣式->知識->智慧的發展模式,NCBI主要起到了一個為生物學家提供數據的角色。不過,NCBI目前也不斷地在調整自己的角色。例如,生物醫學文獻。NCBI在從NLM繼承過來的pubmed的基礎,提供以PMC資料庫為核心的全文文獻服務。PubMed資料庫應該是全球生物學家使用頻率最高的資料庫。NCBI最近對pubmed的改版,雖然沒有實質性的改變,但其按照用戶體驗進行的修改,足見其對該資料庫的重視。
另外,NCBI目前不斷地在引入高學歷生物學人才對其資料庫的質量進行控制。以dbSNP為例,其正在通過與領域專家的合作將突變數據與人類表型數據進行關聯。
總得來講,NCBI的發展是與生物學高通量數據產生密切相關,它以經不在局限於提供數據存儲與查詢,其未來的發展必將發展為一個大型的、綜合的知識庫。到那時NCBI會不會免費,就要另當別論了。很顯然沒有人會將自己的手稿拱手讓人。如果真有那麼一天,不知道從中會產生多少專利和知識產權。
B. 什麼是生物信息學中的二級資料庫
根據需要從一級資料庫中搜集對象的相關數據集合而成的就是二級資料庫。
像genebank,EMBL這種都是不加選擇的一級資料庫,只要是實驗獲得的,不管什麼東西的序列,哪怕是不完整的序列都能上傳,而且它們的數據也有可能有重復。如果有某個人專門研究細菌的鑒定,需要用到正式被認可的16srDNA序列,為了研究方便,把這些一級資料庫的各個種類細菌的公認標准16srDNA序列的數據進行整理,重新構建了一個資料庫,這就是所謂的二級資料庫。如果不構建,直接用一級資料庫做blast,就會得出很多未被承認甚至不完整的序列,還要人工一個個看過去,找出公認的標准序列,這樣就很麻煩。我舉得例子在現實中就是韓國的EzTaxon。
C. 列舉常用的生物信息學資料庫及序列對比常用軟體及特點
一般來說所用的分析工具有在線跟下載的 下面簡要列舉一些常用在線軟體的使用 1、使用VecScreen工具,分析下列未知序列,輸出序列長度、載體序列的區域、可能使用的克隆載體都有哪些。一、步驟:
打開google 首頁,搜索VecScreen,進入VecScreen首頁,復制序列,運行,View report。
二、結果:
輸出序列長度918bp,
載體序列的區域456bp——854bp.
克隆載體:M13mp18 phage,pGEM-13Zf(+),pBR322,pRKW2。
2、使用相應工具,分析下列未知序列的重復序列情況,輸出重復序列的區域、包含的所有重復序列的類型、重復序列的總長度及Masked Sequence。
一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的。
進入google首頁,搜索RepeatMasker,進入RepeatMasker主頁,進入RepeatMasking,復制序列,DNA source選擇human,運行!點擊超鏈接,在結果中選擇
Annotation File :RM2sequpload_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,輸出CpG島的長度、區域、GC數量、所佔的百分比及Obs/Exp值。一、步驟:
進入google首頁,搜索CpGPlot,進入CpGPlot主頁,program中選擇cpgreport復制序列,運行!
二、結果:
CpG島的長度:385bp
區域:48——432;
GC數量:Sum C+G=297,百分數=77.14
Obs/Exp:1.01
4、預測下面序列的啟動子,輸出可能的啟動子序列及相應的位置。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的
進入google首頁,搜索Neural Network Promoter Prediction,進入主頁,復制序列,選擇eukaryote,運行!
二、結果:
位置:711—761 ,1388—1438,1755—1805;
5、運用Splice Site Prediction工具分析下面序列,分別輸出內含子-外顯子剪接位點給體和受體的區域及剪接處位置的鹼基。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的
進入google首頁,搜索Splice Site Prediction,進入主頁,復制序列。Organism選擇Human or other。其他默認,運行!
二、結果:
供體:
受體:
6、對下面序列進行六框翻譯,利用GENESCAN綜合分析(首先確定給定序列的物種來源)哪個ORF是正確的,輸出六框翻譯(抓圖)和GENESCAN結果(包括predicted genes/exons 和 predicted peptide sequence(s) 兩個部分)。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是Zea的
進入google首頁;搜索NCBI,進入主頁,選擇all resources(A~Z),選擇O,選擇ORF finder。復制序列,默認,運行!
二、結果:ORF圖
三、步驟:進入google首頁,搜索GENESCAN,進入主頁,Organism:Maize, ,其他默認,運行!
四、結果:
G7、進入REBASE限制性內切酶資料庫,輸出AluI、MboI、EcoI三種內酶的Recognition Sequence和Type。
一、步驟:進入google首頁,google in English,搜索REBASE,進入主頁, 分別輸入AluI、MboI、EcoI,運行!
在MboI中選擇第一個,EcoI選擇第二個。
二、結果:
ENSCAN圖
8、使用引物設計工具,針對下列未知序列設計一對引物,要求引物長度為20-25bp,擴增產物長度300-500bp,退火溫度為50-60℃。請寫出選擇的一對引物(Forward Primer and Reverse Primer)、及相應的GC含量、引物的位點、Tm值和產物長度。一、步驟:進入google首頁,搜索genefisher,進入主頁,復制fasta格式,chechk input, sunmit, ; ;設置一下引物長度為20-25bp,擴增產物長度300-500bp,退火溫度為50-60℃; 。
二、結果:
GC含量:
引物的位點:
Tm值:
產物長度:。
9、將下面的序列用NEBcutter 2.0工具分析,用產生平末端及有四個酶切位點的酶進行酶切,並用抓圖提交膠圖(view gel),要求1.4% agarose和Marker為100bp DNA Ladder。
一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST,得知是linear。
進入google首頁,搜索NEBcutter 2.0,進入主頁,選擇linear,運行!選擇custom digest, ,把「1」改為「4」,選擇平末端,後digest。View gel。選擇1.4% agarose和Marker為100bp。
二、結果:
然後就是蛋白質的了一般都在expasy里swiss-prot 適用於檢索的 compute pi/mw 求理論分子量 分子量 protparam物理化學性質 protscale親水性疏水性 peptidemass分析蛋白酶和化學試劑處理後的內切產物
NCBI(www.ncbi.nlm.nih.gov)-GenBank資料庫
資料庫相似性搜索——核酸序列與核酸資料庫比較(BLASTN)
蛋白質序列與資料庫中蛋白質序列比較(BLASTP)
兩序列比對(Align two sequences)
DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)
分析實驗序列外顯子部分——GENSCAN(http://genes.mit.e/GENSCAN.html)
分析實驗序列的可能酶切位點——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
註: Custom digest -- view gel
限制性內切酶資料庫——REBASE(http://rebase.neb.com/rebase/rebase.html)
設計引物擴增實驗序列——Genefisher
Primer 3
蛋白質序列分析及結構預測:
1.預測蛋白質的分子量及等電點:ExPASy(Compute pI/Mw)
2.分析蛋白質的基本物理化學性質:ExPASy(ProtParam)
3.分析蛋白質的親水性和疏水性:ExPASy(ProtScale)
4.分析蛋白質在各種蛋白酶和各種化學試劑處理後的內切產物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白質的信號肽:ExPASy(SignalP)
6.預測蛋白質的二級結構:ExPASy(Jpred 3)
多物種分子系統發育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W
人脂聯素蛋白質序列:NP_004788
人類胰島素生長因子IB前體:P05019
D. in cell and developmental biology屬於哪個資料庫
in cell and developmental biology屬於生物信息學資料庫
生物信息資料庫可以分為一級資料庫和二級資料庫。
一級資料庫的數據都直接來源於實驗獲得的原始數據,只經過簡單的歸類整理和注釋;
二級資料庫是在一級資料庫、實驗數據和理論分析的基礎上針對特定目標衍生而來,是對生物學知識和信息的進一步整理。國際上著名的一級核酸資料庫有Genbank資料庫、EMBL核酸庫和DDBJ庫等;蛋白質序列資料庫有SWISS-PROT、PIR等;蛋白質結構庫有PDB等。國際上二級生物學資料庫非常多,它們因針對不同的研究內容和需要而各具特色,如人類基因組圖譜庫GDB、轉錄因子和結合位點庫TRANSFAC、蛋白質結構家族分類庫SCOP等等。
E. 構建蛋白質二級資料庫的基本原則是什麼
生物大分子三維空間結構資料庫是一類重要的生物信息學資料庫。蛋白質結構資料庫(ProreinData Bank,PDB)是1971年創建的國際上最著名、最完整的蛋白質三維結構資料庫。另外還有蛋白質分類資料庫SCOP和CATH。
F. 分子生物信息資料庫的分子生物信息資料庫分類
基因組資料庫來自基因組作圖,序列資料庫來自序列測定,結構資料庫來自X-衍射和核磁共振結構測定。這些資料庫是分子生物信息學的基本數據資源,通常稱為基本資料庫,初始資料庫,也稱一次資料庫。根據生命科學不同研究領域的實際需要,對基因組圖譜、核酸和蛋白質序列、蛋白質結構以及文獻等數據進行分析、整理、歸納、注釋,構建具有特殊生物學意義和專門用途的二次資料庫,是資料庫開發的有效途徑。近年來,世界各國的生物學家和計算機科學家合作,已經開發了幾百個二次資料庫和復合資料庫,也稱專門資料庫、專業資料庫、專用資料庫。
G. 生物信息資料庫分為哪四大類
按大小可以分為1.公共資料庫
2. 從公共資料庫中取數據做進一步處理的專業資料庫,提供更多的分析工具
按功能分可以有
基因庫GENEBANK,蛋白庫UNIPROT, 結構庫PDB, 功能分類 GO庫,通路庫 KEGG。
不用專注於4這個數字。隨著科研的進步還會有更多的資料庫出來。
H. 常用的生物信息學python庫有哪些
常用的生物信息學python庫:
Tkinter
Python默認的圖形界面介面。Tkinter是一個和Tk介面的Python模塊,Tkinter庫提供了對Tk API的介面,它屬於Tcl/Tk的GUI工具組。
PyGTK
用於python GUI程序開發的GTK+庫。GTK就是用來實現GIMP和Gnome的庫。
PyQt
用於python的Qt開發庫。QT就是實現了KDE環境的那個庫,由一系列的模塊組成,有qt, qtcanvas, qtgl, qtnetwork, qtsql, qttable, qtui and qtxml,包含有300個類和超過5750個的函數和方法。PyQt還支持一個叫qtext的模塊,它包含一個QScintilla庫。該庫是Scintillar編輯器類的Qt介面。
wxPython
GUI編程框架,熟悉MFC的人會非常喜歡,簡直是同一架構(對於初學者或者對設計要求不高的用戶來說,使用Boa Constructor可以方便迅速的進行wxPython的開發)
PIL
python提供強大的圖形處理的能力,並提供廣泛的圖形文件格式支持,該庫能進行圖形格式的轉換、列印和顯示。還能進行一些圖形效果的處理,如圖形的放大、縮小和旋轉等。是Python用戶進行圖象處理的強有力工具。
Psyco
一個Python代碼加速度器,可使Python代碼的執行速度提高到與編譯語言一樣的水平。
xmpppy
Jabber伺服器採用開發的XMPP協議,Google Talk也是採用XMPP協議的IM系統。在Python中有一個xmpppy模塊支持該協議。也就是說,我們可以通過該模塊與Jabber伺服器通信,是不是很Cool。
PyMedia
用於多媒體操作的python模塊。它提供了豐富而簡單的介面用於多媒體處理(wav, mp3, ogg, avi, divx, dvd, cdda etc)。可在Windows和Linux平台下使用。
Pmw
Python megawidgets,Python超級GUI組件集,一個在python中利用Tkinter模塊構建的高級GUI組件,每個Pmw都合並了一個或多個Tkinter組件,以實現更有用和更復雜的功能。
PyXML
用Python解析和處理XML文檔的工具包,包中的4DOM是完全相容於W3C DOM規范的。它包含以下內容:
xmlproc: 一個符合規范的XML解析器。Expat: 一個快速的,非驗證的XML解析器。還有其他和他同級別的還有 PyHtml PySGML。
PyGame
用於多媒體開發和游戲軟體開發的模塊。
PyOpenGL
模塊封裝了「OpenGL應用程序編程介面」,通過該模塊python程序員可在程序中集成2D和3D的圖形。
NumPy、NumArray、SAGE
NumArray是Python的一個擴展庫,主要用於處理任意維數的固定類型數組,簡單說就是一個矩陣庫。它的底層代碼使用C來編寫,所以速度的優勢很明顯。SAGE是基於NumPy和其他幾個工具所整合成的數學軟體包,目標是取代Magma, Maple, Mathematica和Matlab 這類工具。
MySQLdb
用於連接MySQL資料庫。還有用於zope的ZMySQLDA模塊,通過它就可在zope中連接mysql資料庫。
Sqlite3
用於連接sqlite資料庫。
Python-ldap
提供一組面向對象的API,可方便地在python中訪問ldap目錄服務,它基於OpenLDAP2.x。
smtplib
發送電子郵件。
ftplib
定義了FTP類和一些方法,用以進行客戶端的ftp編程。如果想了解ftp協議的詳細內容,請參考RFC959。
PyOpenCL
OpenCL的Python介面,通過該模塊可以使用GPU實現並行計算。
I. YLWWINNER是什麼
分子生物學資料庫的演變經歷了文獻索引資料庫、事實資料庫和知識資料庫三個階段。
生物信息學涉及的資料庫可大致分為二種:初級資料庫和二級資料庫。
一級資料庫(初級資料庫):資料庫中的數據直接來源於實驗獲得的原始數據,只經過簡單的歸類整理和注釋。
二級資料庫:對原始生物分子數據進行整理、分類的結果,是在一級資料庫、實驗數據和理論分析的基礎上針對特定的應用目標而建立的。
國際上著名的初級核酸資料庫有Genbank資料庫、EMBL核酸庫和DDBJ庫等;蛋白質序列資料庫有SWISS-PROT、PIR等;蛋白質結構庫有PDB等;基因組資料庫等。
國際上二級生物學資料庫非常多,它們因針對不同的研究內容和需要而各具特色,如人類基因組圖譜庫GDB、轉錄因子和結合位點庫TRANSFAC、蛋白質結構家族分類庫SCOP等等。
EMBL資料庫的每個條目是一份純文本文件。每一行最前面是由兩個大寫字母組成的識別標志, 歐洲國家的許多資料庫如SWISS-PROT、ENZYME、TRANSFAC 都採用EMBL格式。
GenBank序列文件由單個的序列條目組成。序列條目是一個純文本文件,由欄位組成,每個欄位由關鍵字(為完整的英文字,不用縮寫)起始(每行左端或為空格),後面為該欄位的具體說明。有些欄位又分若干次子欄位,以次關鍵字或特性表說明符開始。每個序列條目以雙斜杠「//」作結束標記。
Genbank庫包含了所有已知的核酸序列和蛋白質序列,以及與它們相關的文獻著作和生物學注釋。
PubMed系統是由美國國立生物技術信息中心(NCBI)開發的用於檢索MEDLINE、PreMED-LINE資料庫的網上檢索系統。MEDLINE是美國國立醫學圖書館(U.S.National Library of Medicine)最重要的書目文摘資料庫,內容涉及醫學、護理學、牙科學、獸醫學、衛生保健和基礎醫學。
BLAST(Basic Local Alignment Search Tool):是目前常用的資料庫搜索程序,意為「基本局部相似性比對搜索工具」。國際著名生物信息中心都提供基於網路的BLAST伺服器。
SWISS-PROT和PIR是國際上二個主要的蛋白質序列資料庫。
資料庫查詢(database query) :對序列、結構以及各種二次資料庫中的注釋信息進行關鍵詞匹配查找。有時也稱資料庫檢索,它和互聯網上通過搜索引擎 (Search engine) 查找需要的信息是一個概念。
資料庫搜索(database search
是指通過特定的序列相似性比對演算法,找出核酸或蛋白質序列資料庫中與檢測序列具有一定程度相似性的序列。最為著名的信息檢索系統是美國NCBI開發的Entrez數據檢索系統和EBI開發的SRS序列檢索系統
資料庫相似性搜索工具最常見的是FASTA工具和BLAST工具。
EMBL的發送系統為WebIn
GenBank 的發送系統sequin
測序工作者可以把自己工作中獲得的新序列提交給NCBI,添加到Genbank資料庫。這個任務可以由基於Web界面的BankIt或獨立程序Sequin來完成。
確定DNA序列之間或蛋白質序列之間相似性程度的過程稱為序列比對(sequence alignment)。
雙序列比對(pairwise alignment)是指通過一定演算法對兩個DNA或蛋白質序列進行比較,找出兩者之間最大相似性匹配。
變異的種類主要有以下三種: 替代(substitution)插入或刪除(insertion or deletion) indel 重排(rearrangement
同源序列是從某一共同祖先經趨異進化而形成的不同序列 。
相似性(similarity)指序列比對過程中用來描述序列之間相同或相似DNA鹼基或氨基酸殘基序列所佔比例的高低。
同源性(homology)是指從一些數據中判斷出兩個基因在進化上曾具有共同祖先的結論。
全局比對(global alignment):
從全長序列出發,考察兩個序列之間的整體相似性。
局部比對(local alignment):
著眼於序列中的某些特殊片斷,比較這些片斷之間的相似性、
(3)K-元法/字法
(k-tuple method /word method)
該方法從尋找完全匹配的短片斷(稱為k-元或字)出發,並以此為基礎運用動態規劃方法將這一片斷向兩端延伸,得到較長的相似性匹配。
在進行序列兩兩比對時,有兩方面問題直接影響相似性分值:取代矩陣和空位罰分。
空位:序列中任意連續的盡可能長的空格
空位開放 (gap opening)
對新空位的產生進行的空位開放罰分(a)
空位延伸(gap extension )
對空位延伸所進行的空位延伸罰分(b)
空位罰分(Wk)的數學公式
Wk=a+bk k為連續空位個數
@空位處罰特點:1、同常對於a會選擇一個高分(10-15分)對於b會選擇一個低分(1-2分)
2、大的空位設置值配以很小的空位擴展罰值被普遍證實是最佳的設定思路
@目前最有名的蛋白質矩陣Blosum、PAM
@PAM矩陣要點:可觀測突變百分率
核酸序列的檢索
1.NCBI中的Entrez
*核酸中載體序列的識別和去除VecScreen
重復序列分析 有CENSOR(EMBL)和RepeatMasker
CpG島識別 CpGPlot/CpGReport
啟動子與轉錄因子結合位點的識別TRES、Neural Network Promoter Prediction、Dragon Promoter Finder、 promoterInspector、NNPP2.1、TSSG、promoter2.0、Mcpromoter 。
內含子-外顯子剪接位點的識別SpliceView、NetGene2和BDGP中Splice Site Prediction等。
編碼區統計特性分析GRAIL和GenMark
tRNA基因的識別tRNAscan-SE
其它綜合基因預測工具GENSCAN
限制性內切酶分析REBASE(從google英文界面進入)
在線限制性酶切資源NEBcutter V2.0 WebCutter
PCR引物設計Primer 3 Genefisher
① 引物應用核酸系列保守區內設計並具有特異性。
② 產物不能形成二級結構。
③ 引物長度一般在15~30bp鹼基之間,常用的是18~27bp,但不應大於38bp,兩引物長度差異不超過3bp。
④ G+C含量在40%~60%之間。
⑤ 退火溫度在42~57℃,但兩引物間的退火溫度的差不可大於5℃ 。
⑥ 引物自身不能有連續4個鹼基的互補。
⑦ 引物之間不能有連續4個鹼基的互補。
⑧ 引物5′端可以修飾(加酶切位點序列;標記生物素、熒光素、地高辛等 )。
⑨ 引物3′端不可修飾。
⑩ 引物3′端要避開密碼子的第3位,一般避免使用鹼基A,最好為G和C。
PIR國際蛋白質序列資料庫(PSD)是由蛋白質信息資源(PIR)、慕尼黑蛋白質序列信息中心(MIPS)和日本國際蛋白質序列資料庫(JIPID)共同維護的國際上最大的公共蛋白質序列資料庫。這是一個全面的、經過注釋的、非冗餘的蛋白質序列資料庫,
PSD資料庫有幾個輔助資料庫,如基於超家族的非冗餘庫等。PIR提供三類序列搜索服務:基於文本的互動式檢索;標準的序列相似性搜索,包括BLAST、FASTA等;結合序列相似性、注釋信息和蛋白質家族信息的高級搜索,包括按注釋分類的相似性搜索、結構域搜索GeneFIND等。
SWISS-PROT是經過注釋的蛋白質序列資料庫,由歐洲生物信息學研究所(EBI)維護。資料庫由蛋白質序列條目構成,每個條目包含蛋白質序列、引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關系、序列變異體和沖突等信息。
ProtParam工具這是用於計算蛋白質的各種物理化學性質的工具,包括蛋白質的相對分子質量、理論pI值、氨基酸組成、原子組成、消光系數、半衰期、不穩定系數以及總平均親水性等。
Compute pI/MW工具 是ExPASy工具包中的程序,計算蛋白質的等電點和分子量。對於鹼性蛋白質,計算出的等電點可能不準確。
AACompldent工具 根據氨基酸組成辨識蛋白質。
PeptideMass工具 是分析蛋白質在各種蛋白酶和化學試劑處理後的內切產物。
蛋白質二級結構預測
nnpredict工具 (不能用,二級結構預測改用GOR)
HNN工具- Hierarchical Neural Network method
ProtScale工具蛋白質的疏水性分析
Tmpred---跨膜結構分析
COILS---捲曲螺旋預測
SignalP ---信號肽預測工具
蛋白質三級結構預測
SWISS-Model工具 自動蛋白質同源模建伺服器,有三個工作模式:Automated Mode、 Alignment Mode和 Project Mode。程序先把提交的序列在ExPdb晶體圖像資料庫中搜索相似性足夠高的同源序列,建立最初的原子模型,再對這個模型進行優化產生預測的結構模型。
最為著名的三大核心資料庫:PDB 生物大分子結構資料庫;SWISS-PROT 蛋白質序列資料庫;
GENBANK 核酸資料庫
公認三大核酸資料庫:NCBI(美) EMBL(歐洲) DDBJ(日)