1. 什么是“生物信息学”
生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成的一门新学科。
它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。
生物信息学将生物与数学、计算机进行了有效结合,主要通过综合运用数学和信息科学等多领域的方法和工具对生物信息进行获取、加工、存储、分析和解释,来阐明大量生物数据所包含的生物学意义,研究重点主要体现在基因组学和蛋白质组学两方面。
技术方法
生物信息学不仅仅是生物学知识的简单整理和数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。
巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难, 需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。
高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。
2. 生物信息学主要处理和分析哪些高通量数据类型
高通量数据类型主要包括基因芯片和基因测序,我估计你想知道的是具体的内容。
具体的内容其实是指的高通量测序技术的应用,例如microarray,RNA-Seq,Exome-Seq,Target-Seq,Whole-genome-sequencing,宏基因组,16S RNA,microRNA,lncRNA测序等。
研究的问题就更五花八门了,像现在精准医疗的概念很火,主要是以基因测序为入口,后面的应用,例如产前诊断,孕前诊断等,甚至像亲子鉴定,肿瘤靶标等都可以通过生物信息学的分析手段来搞定。
生物信息分析分为几个层次,第一个层次基本上就是用别人做好的成熟软件,直接分析出你要的结果,再深入就是你会根据问题找到更合适的一些软件或者模块,自己组建一些分析流程,包括自己写一些辅助的程序脚本,更深入的层次就是市面上没有符合你要求的软件或者统计算法,你依据自己的需求,定制自己的分析过程,自己从头开始写基础程序,写统计算法,写模型等。到了这个程度就没有那么多限制了,主要比的是个人的思维想法以及眼界开阔程度。
现在也很多生物信息的分析方法应用在大数据的各个领域。本质是各种统计思维方法的实现,找出特定的模式结果。