导航:首页 > 数据处理 > 生物信息要处理的生物数据有哪些

生物信息要处理的生物数据有哪些

发布时间:2023-11-01 06:24:27

‘壹’ 生物信息怎样序列比对需要哪些数据

生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点。
序列比对
序列比对(Sequence Alignment)的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列。在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列,比较两个或多个序列的相似性,在数据库中搜索相关序列和子序列,寻找核苷酸(nucleotides)的连续产生模式,找出蛋白质和DNA序列中的信息成分。序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等。两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达10^9bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效。因此,启发式方法的引入势在必然,着名的BLAST和FASTA算法及相应的改进方法均是从此前提出发的。
蛋白质比对
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等。氨基酸的序列内在的决定了蛋白质的3维结构。一般认为,蛋白质有四级不同的结构。研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成。直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息。蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释。从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源建模(homology modeling)和指认(Threading)方法属于这一范畴。同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构。然而,蛋白结构预测研究现状还远远不能满足实际需要。

‘贰’ 生物学上实验处理数据的方法有哪些

实验数据的处理方法:
1. 平均值法
取算术平均值是为减小偶然误差而常用的一种数据处理方法。通常在同样的测量条件下,对于某一物理量进行多次测量的结果不会完全一样,用多次测量的算术平均值作为测量结果,是真实值的最好近似。

2. 列表法
实验中将数据列成表格,可以简明地表示出有关物理量之间的关系,便于检查测量结果和运算是否合理,有助于发现和分析问题,而且列表法还是图象法的基础。
列表时应注意:
①表格要直接地反映有关物理量之间的关系,一般把自变量写在前边,因变量紧接着写在后面,便于分析。
②表格要清楚地反映测量的次数,测得的物理量的名称及单位,计算的物理量的名称及单位。物理量的单位可写在标题栏内,一般不在数值栏内重复出现。
③表中所列数据要正确反映测量值的有效数字。

3. 作图法
选取适当的自变量,通过作图可以找到或反映物理量之间的变化关系,并便于找出其中的规律,确定对应量的函数关系。作图法是最常用的实验数据处理方法之一。
描绘图象的要求是:
①根据测量的要求选定坐标轴,一般以横轴为自变量,纵轴为因变量。坐标轴要标明所代表的物理量的名称及单位。
②坐标轴标度的选择应合适,使测量数据能在坐标轴上得到准确的反映。为避免图纸上出现大片空白,坐标原点可以是零,也可以不是零。坐标轴的分度的估读数,应与测量值的估读数(即有效数字的末位)相对应。

‘叁’ 生物信息学研究的内容

生物信息学的主要研究内容

1、序列比对(Alignment)

基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包BLAST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。

2、结构比对

基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。

3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一

从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建(Homology)和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。

4、计算机辅助基因识别(仅指蛋白质编码基因)。最重要的课题之一

基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。

5、非编码区分析和DNA语言研究,是最重要的课题之一

在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。

6、分子进化和比较基因组学,是最重要的课题之一

早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。

7、序列重叠群(Contigs)装配

一般来说,根据现行的测序技术,每次反应只能测出500或更多一些碱基对的序列,这就有一个把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明,这是一个NP-完备

性算法问题。

8、遗传密码的起源

遗传密码为什么是现在这样的?这一直是一个谜。一种最简单的理论认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物最后的共同祖先里,一直延续至今。不同于这种“冻结”理论,有人曾分别提出过选择优化、化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。

9、基于结构的药物设计。是最重要的课题之一

人类基因组计划的目的之一在于阐明人的约10万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其3级结构的基础上,可以利用分子对接算法,在计算机上设计抑制剂分子,作为候选药物。这种发现新药物的方法有强大的生命力,也有着巨大的经济效益

‘肆’ 生物信息学主要处理和分析哪些高通量数据类型

高通量数据类型主要包括基因芯片和基因测序,我估计你想知道的是具体的内容。
具体的内容其实是指的高通量测序技术的应用,例如microarray,RNA-Seq,Exome-Seq,Target-Seq,Whole-genome-sequencing,宏基因组,16S RNA,microRNA,lncRNA测序等。
研究的问题就更五花八门了,像现在精准医疗的概念很火,主要是以基因测序为入口,后面的应用,例如产前诊断,孕前诊断等,甚至像亲子鉴定,肿瘤靶标等都可以通过生物信息学的分析手段来搞定。
生物信息分析分为几个层次,第一个层次基本上就是用别人做好的成熟软件,直接分析出你要的结果,再深入就是你会根据问题找到更合适的一些软件或者模块,自己组建一些分析流程,包括自己写一些辅助的程序脚本,更深入的层次就是市面上没有符合你要求的软件或者统计算法,你依据自己的需求,定制自己的分析过程,自己从头开始写基础程序,写统计算法,写模型等。到了这个程度就没有那么多限制了,主要比的是个人的思维想法以及眼界开阔程度。
现在也很多生物信息的分析方法应用在大数据的各个领域。本质是各种统计思维方法的实现,找出特定的模式结果。

阅读全文

与生物信息要处理的生物数据有哪些相关的资料

热点内容
安卓如何设置程序使用屏幕的比例 浏览:958
怎么获取知网数据库 浏览:263
做市场投放需要注意什么 浏览:742
滨州哪里有鉴定交易 浏览:59
批发市场的鸡蛋皮是怎么知道的 浏览:269
麻友圈成为代理怎么充卡 浏览:64
有什么好的技术推广 浏览:43
交易数据异常是什么意思 浏览:327
汽修技术培训如何学 浏览:12
nb在哪里可以交易 浏览:712
数据统计员一个月多少钱 浏览:187
化工重芳烃精制的产品是什么 浏览:365
短线投机有哪些技术 浏览:225
苏州哪里有核心技术 浏览:452
襄阳职业技术学院附近有什么 浏览:881
nba有哪些令人惊艳的数据 浏览:665
纤伏代理怎么样 浏览:373
如何查看自己定向佣金产品 浏览:122
简历配偶信息怎么写 浏览:564
商贸代理怎么做 浏览:63