A. TBtools | 快速(以分钟计)且准确地获取家族进化分支成员
生物信息数据下游分析,是一个非常复杂,且几乎没有也不可能流程化的操作。究其原因, 但凡贴近生物学问题,需要更多生物学视角,甚至是研究人员的直觉 。而这,恰恰又是工作亮点挖掘,做出有意义工作的关键;甚至说实际一点,paper 发得好不好的关键。解决,是不可能解决的。但是加速,是存在可能的。TBtools 的相当部分功能,也正是其这个作用。简而言之, TBtools,打辅助。
在数据中,挖掘生物学故事的时候+,我们常常会拿一些已知基因更或者是已知通路为参考,大体可以分为两种操作:
两种操作,各有千秋。不过,从某种角度来说,往往从传统视角出发,可以发现更多东西,毕竟这是比较solid地站在巨人的肩膀上。那么问题来了,ARF本身在植物的每个物种中都是基因家族,拟南芥在ARF3对应我们材料中,哪一个ARF?如何去确定?解决办法一般有三:
其实快速的解决办法还是有的。这几天,为了搞好学位论文,我刷了不少个papers,整理了与课题 可能 相关的通路(以及基因)。对着自己的数据,就需要做前述工作。鉴定了五个转录因子家族之后,不想再整了(Sad...真的挺麻烦)。可能搞分析的会提出,你怎么不用orthofinder之类的?还是不要来搞笑了。一是计算量和时间;二是精度。好吧,那咋办?我不想干了。那就只能突发奇想,......, 既然又是生信大佬们都看不上的,那就我自己来 。
分析第一步,打开TBtools
来个示例
其他的都设置完毕,填上一个ID接口,点击 Start,大概过了 一分钟...(注意,如果按照鉴定家族 + 构建进化树,半天或者一两天是正常的,因为还有许多坑....)。结果出来了,直接右键复制就可以用了。连你自己想办法去截取分支,拿到ID,都帮你搞定了。
Emmm,这是一个问题,我也不知道。不过我有不是没有 参考答案 。在这个工具写出来之前,我鉴定了这个家族成员R2R2MYB,同时把100来个序列和拟南芥的100来个R2R3MYB一起建了颗ML树。结果如下:
不对啊,怎么会跟预期不符合啊。Emmm....
OK,Confirmed ! 也就是说,我。。。鉴定 R2R3MYB的时候,漏掉了。Sad,因为,我只看了Pfam,而Pfam,不够优秀,敏感度决定了他只挖掘到一个domain。所以,基于domain的筛选,其实不要搞太早,不然反而会过滤掉正确的结果。当然,如果我还结合 MEME 的结果,应该就不会漏吧。
但是,话说回来,我现在有了“FindBestHomology”这个功能,还搞家族鉴定干啥?新功能,确实可以, 更灵敏,更靠谱! ,又快又好,真香!
前天晚上鼓捣了下思路,搞了功能;昨天早上8点出门前开始写了点推文;晚上23点左右回来继续整理下,现在是24点04分。时间过得真快。之所以写了一个来小时,因为网页崩溃了,推文历史记录差点找不回来。最后我是通过URL反转义回来,然后再手动调整。或许,如果没找回来,这个推文也就不会出来了。
很久没有增加新功能了,主要还是我课题上没有太多新的 迫切的 需求。
PS:早前提过,TBtools论文没有被接收之前,不做更新;前几天更新了,于是多少大家猜到了目前情况;前前后后十来人问要新的 doi号,大体是 预印本大家还是不太认可或者加引用不方便... 不过,确实暂时木有新doi,继续bioRxiv吧。新的doi出来了,自然公告一下。谢谢各位支持了。
B. 用 生物信息学软件 解决 一个生物学问题
下个mega4.1
去NCBI或者Eztaxon或者www.bacterio.cict.fr或者其他能链接到数据库地方下载一些细菌的16sDNA序列。
然后用mega比对就可以做一个系统树了。
比如可以做一个假单胞菌属的系统发育树,选择几个假单胞菌的序列,选择合适的计算方法,用软件计算出系统树。记得还要放一个属外种作为参考啊。
别指望有多人回答,这里大多都是中学生。
C. 在你看来学习生物信息学有哪些比较好的网站或论坛
国外与生物信息学相关的网站有哪些
生物信息学高度依赖于网络。实际上,你需要的几乎所有资源,都可以从网上下到。你需要关注你研究领域所需要的那些,而不是全部的资源。
我原来常用的:
NCBI:持有INSDC的节点。网站上有核酸、蛋白、基因名、基因组名等等的搜索工具,以及BLAST序列比对搜索工具,PUBMED文献数据库,Taxonomy数据,COG蛋白家族库等等。FTP可以下到它全部的数据库,BLAST的单机程序,以及各种工具程序。
EBI:和NCBI类似,欧洲搞的对等物。感觉EBI网站比NCBI要清楚简洁。另外EBI网站整合了更多的工具,比如多序列比对。
Uniprot:全蛋白库。NCBI和EBI的蛋白库来源于此。目前包括两部分:SwissProt是人工校对过的,TrEMBL是自动校对的。
Pfam:蛋白家族库。可以使用配套的HMMER进行搜索。比BLAST能找到更远缘的东西,而且找到的东西是结构域。
Rfam:RNA的,类似Pfam。
RDP:16S rRNA库。除了序列,它还有一个基于K-mer naive Bayesian model的rdp classifier,可以对输入序列进行物种分类,效率和准确性较直接使用BLAST更高。
GreenGenes:也是16S库,不过它只收集比较全的序列。它提供了一个16S的标准化比对,并基于这个东西搞了个物种分类工具。
EMBOSS:一个工具包,提供了几百个进行序列操作的工具。
BioPerl、BioPython:Perl和Python的生物学模块。
R:类似matlab的语言,有一大堆的生物学包。
SOAP:华大基因搞的高通量测序工具包,有de-novo拼接的,有mapping的,还有一些后续分析的。
bowtie:一个用于序列mapping的软件。
samtools:用于操纵、分析高通量序列mapping的结果。功能非常灵活,但有点复杂。
fastx toolkit:用来操纵高通量测序序列的工具包。