❶ in cell and developmental biology属于哪个数据库
in cell and developmental biology属于生物信息学数据库
生物信息数据库可以分为一级数据库和二级数据库。
一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;
二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上着名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。
❷ 蛋白质数据库包括哪四种
PIR:蛋白质信息资源
SWISS-PROT:蛋白质序列和注解
PDB:国家实验室蛋白质数据库
MMDB:蛋白质分子模型数据库
❸ 蛋白质序列数据库的介绍
指应用计算机功能分析生物学信息的数据库。应用计算机的运算法则,比较DNA和蛋白质序列而检测结构、功能和序列之间的进化关系。各种基因组的序列产生大量的DNA序列数据和生物信息,已经被应用于研究基因的功能,预测以前未知的基因功能。现在人们的注意力主要集中在从仅有的氨基酸序列预测蛋白质结构和功能。
❹ 蛋白质序列数据库的数据库分类
PIR数据库按照数据的性质和注释层次分四个不同部分,分别为PIR1、PIR2、PIR3和PIR4。PIR1中的序列已经验证,注释最为详尽;PIR2中包含尚未确定的冗余序列;PIR3中的序列尚未加以检验,也未加注释; 而PIR4中则包括了其它各种渠道获得的序列,既未验证,也无注释。除了PIR外,另一个重要的蛋白质序列数据库则是SwissProt。该数据库由瑞士日内瓦大学于1986年创建,目前由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,简称SIB)和欧洲生物信息学研究所 EBI共同维护和管理。瑞士生物信息研究所下属的蛋白质分析专家系统(Expert Protein Analysis System,,简称ExPASy)的Web服务器除了开发和维护SwissProt数据库外,也是国际上蛋白质组和蛋白质分子模型研究的中心,为用户提供大量蛋白质信息资源。北京大学生物信息中心设有ExPASy的镜象。PIR和SwissProt是创建最早、使用最为广泛的两个蛋白质数据库。随着各种模式生物基因组计划的进展,DNA序列特别是EST序列大量进入核酸序列数据库。蛋白质序列数据库TrEMBL是从EMBL中的cDNA序列翻译得到的。TrEMBL数据库创建是于1996年[Bairoch, 2000],意为“Translation of EMBL”。该数据库采用SwissProt数据库格式,包含EMBL数据库中所有编码序列的翻译。TrEMBL数据库分两部分,SP-TrEMBL和 REM-TrEMBL。SP-TrEMBL中的条目最终将归并到SwissProt数据库中。而Rem-TrEMBL则包括其它剩余序列,包括免疫球蛋白、T细胞受体、少于8个氨基酸残基的小肽、合成序列、专利序列等。与TrEMBL类似,GenPept是由GenBank翻译得到的蛋白质序列。由于TrEMBL和GenPept均是由核酸序列通过计算机程序翻译生成,这两个数据库中的序列错误率较大,均有较大的冗余度。另一个常用的蛋白质序列数据库是已知三维结构蛋白质的一级结构序列数据库NRL-3D[Namboodiri, 1990]。该数据库的序列是从三维结构数据库PDB中提取出来。
❺ 蛋白质组学目前有哪些数据库
NCBI数据库,包括
蛋白质序列数据库
是从NCBI多个不同资源中编译整理的。
蛋白质结构数据库
包含来自X线晶体学和三维结构的实验数据。其数据从PDB(Protein Data Bank)获得。
❻ uniprot蛋白质序列数据库由哪几部分组成各有什么特点
将PIR、SWISS-PROT和TrEMBL3个蛋白质数据库统一-起来组建而成,包含3个部分:
(1)
UniProt
Knowledgebase
(UniProtKB)
,这是蛋白质序列、功能、分类、交叉引用等蛋白质知识库,记录经过人工筛选和注释;
■
(2)
UniRef
(
UniProt
Non-rendant
Reference
)
数据库,将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;
■
(3)
UniParc
(UniProt
Archive),是UniProt存档库
,
收录所有蛋白质序列。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。
❼ 为什么说swiss-prot是重要的蛋白质序列数据库
SWISS-PROT是含有详细注释内容的蛋白质序列数据库,由欧洲生物信息学中心(EBI)维护,目前已合并入 UniProt数据库,旨在帮助基因组和蛋白质组以及相关的分子生物学研究人员提供有关蛋白质氨基酸序列的最新信息。
SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立
了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。SWISS-PROT数据库包含了EMBL核酸序列数据库中被经过仔细检查和准确注释了
的蛋白质序列,一般地,任何蛋白质序列数据的搜寻和比较都应从SWISS-PROT开始。
SWISS-PROT蛋白质序列数据由大量序列条目组成,每一个序列条目
有其自己的格式。为了标准化的目的,SWISS-PROT的格式与EMBL核酸序列数据库的格式尽可能类似。SWISS-PROT涉及已知蛋白质的序列、
引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关
系、序列变异体和冲突等信息。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序
获得的蛋白质序列,序列提交可以在其Web页面上完成。
❽ 常用的查询蛋白质结构以及序列的数据库主要有哪些
1. PIR和PSD
PIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库,可在这里下载。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。
PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
2. SWISS-PROT
SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。
利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。
3. PROSITE
PROSITE数据库收集了生物学有显着意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的profile,能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。
4. PDB
蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文件格式和其它文档的说明,PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。
5. SCOP
蛋白质结构分类(SCOP)数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子(fold),描述空间几何结构的关系;折叠类,所有折叠子被归于全α、全β、α/β、α+β和多结构域等几个大类。SCOP还提供一个非冗余的ASTRAIL序列库,这个库通常被用来评估各种序列比对算法。此外,SCOP还提供一个PDB-ISL中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。
6. COG
蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序,可以把某个蛋白质与所有COGs中的蛋白质进行比对,并把它归入适当的COG簇。COG库提供了对COG分类数据的检索和查询,基于Web的COGNITOR服务,系统进化模式的查询服务等。
❾ 列举常用的生物信息学数据库及序列对比常用软件及特点
一般来说所用的分析工具有在线跟下载的 下面简要列举一些常用在线软件的使用 1、使用VecScreen工具,分析下列未知序列,输出序列长度、载体序列的区域、可能使用的克隆载体都有哪些。一、步骤:
打开google 首页,搜索VecScreen,进入VecScreen首页,复制序列,运行,View report。
二、结果:
输出序列长度918bp,
载体序列的区域456bp——854bp.
克隆载体:M13mp18 phage,pGEM-13Zf(+),pBR322,pRKW2。
2、使用相应工具,分析下列未知序列的重复序列情况,输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的。
进入google首页,搜索RepeatMasker,进入RepeatMasker主页,进入RepeatMasking,复制序列,DNA source选择human,运行!点击超链接,在结果中选择
Annotation File :RM2sequpload_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,输出CpG岛的长度、区域、GC数量、所占的百分比及Obs/Exp值。一、步骤:
进入google首页,搜索CpGPlot,进入CpGPlot主页,program中选择cpgreport复制序列,运行!
二、结果:
CpG岛的长度:385bp
区域:48——432;
GC数量:Sum C+G=297,百分数=77.14
Obs/Exp:1.01
4、预测下面序列的启动子,输出可能的启动子序列及相应的位置。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索Neural Network Promoter Prediction,进入主页,复制序列,选择eukaryote,运行!
二、结果:
位置:711—761 ,1388—1438,1755—1805;
5、运用Splice Site Prediction工具分析下面序列,分别输出内含子-外显子剪接位点给体和受体的区域及剪接处位置的碱基。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索Splice Site Prediction,进入主页,复制序列。Organism选择Human or other。其他默认,运行!
二、结果:
供体:
受体:
6、对下面序列进行六框翻译,利用GENESCAN综合分析(首先确定给定序列的物种来源)哪个ORF是正确的,输出六框翻译(抓图)和GENESCAN结果(包括predicted genes/exons 和 predicted peptide sequence(s) 两个部分)。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是Zea的
进入google首页;搜索NCBI,进入主页,选择all resources(A~Z),选择O,选择ORF finder。复制序列,默认,运行!
二、结果:ORF图
三、步骤:进入google首页,搜索GENESCAN,进入主页,Organism:Maize, ,其他默认,运行!
四、结果:
G7、进入REBASE限制性内切酶数据库,输出AluI、MboI、EcoI三种内酶的Recognition Sequence和Type。
一、步骤:进入google首页,google in English,搜索REBASE,进入主页, 分别输入AluI、MboI、EcoI,运行!
在MboI中选择第一个,EcoI选择第二个。
二、结果:
ENSCAN图
8、使用引物设计工具,针对下列未知序列设计一对引物,要求引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃。请写出选择的一对引物(Forward Primer and Reverse Primer)、及相应的GC含量、引物的位点、Tm值和产物长度。一、步骤:进入google首页,搜索genefisher,进入主页,复制fasta格式,chechk input, sunmit, ; ;设置一下引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃; 。
二、结果:
GC含量:
引物的位点:
Tm值:
产物长度:。
9、将下面的序列用NEBcutter 2.0工具分析,用产生平末端及有四个酶切位点的酶进行酶切,并用抓图提交胶图(view gel),要求1.4% agarose和Marker为100bp DNA Ladder。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST,得知是linear。
进入google首页,搜索NEBcutter 2.0,进入主页,选择linear,运行!选择custom digest, ,把“1”改为“4”,选择平末端,后digest。View gel。选择1.4% agarose和Marker为100bp。
二、结果:
然后就是蛋白质的了一般都在expasy里swiss-prot 适用于检索的 compute pi/mw 求理论分子量 分子量 protparam物理化学性质 protscale亲水性疏水性 peptidemass分析蛋白酶和化学试剂处理后的内切产物
NCBI(www.ncbi.nlm.nih.gov)-GenBank数据库
数据库相似性搜索——核酸序列与核酸数据库比较(BLASTN)
蛋白质序列与数据库中蛋白质序列比较(BLASTP)
两序列比对(Align two sequences)
DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)
分析实验序列外显子部分——GENSCAN(http://genes.mit.e/GENSCAN.html)
分析实验序列的可能酶切位点——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
注: Custom digest -- view gel
限制性内切酶数据库——REBASE(http://rebase.neb.com/rebase/rebase.html)
设计引物扩增实验序列——Genefisher
Primer 3
蛋白质序列分析及结构预测:
1.预测蛋白质的分子量及等电点:ExPASy(Compute pI/Mw)
2.分析蛋白质的基本物理化学性质:ExPASy(ProtParam)
3.分析蛋白质的亲水性和疏水性:ExPASy(ProtScale)
4.分析蛋白质在各种蛋白酶和各种化学试剂处理后的内切产物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白质的信号肽:ExPASy(SignalP)
6.预测蛋白质的二级结构:ExPASy(Jpred 3)
多物种分子系统发育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W
人脂联素蛋白质序列:NP_004788
人类胰岛素生长因子IB前体:P05019