‘壹’ 生物信息学中分析lncRNA的工具有哪些
给你一个大致的筛选标准:
(1)选择长度≥200bp,Exon个数≥2的转录本;
(2)通过计算每条转录本的Reads覆盖度,选择Reads最小覆盖
度≥3的转录本;
(3)去除已知的mRNA转录本(通过和已有注释文件比对)
(4)去除已知的非编码RNA转录本(比对一些已有的lncRNA数据库了)
(5)去除有蛋白家族的转录本(能够注释到Pfam数据库);
(6)去除有编码潜能的RNA(CNCI,CPC,这两款都可以给出一个编码能力的预测)
‘贰’ 常用生物信息学在线分析工具汇总(记录中...)
NCBI主站: https://www.ncbi.nlm.nih.gov/
拟南芥: https://www.arabidopsis.org/
AmiGO2
STRING
Pham
BLAST: https://blast.ncbi.nlm.nih.gov/Blast.cgi
ProParam: https://us.expasy.org/tools/protparam.html
ProScale: http://expasy.org/cgi-bin/protscale.pl/
TMHMM2.0: http://www.cbs.dtu.dk/services/TMHMM-2.0/
TMPred: http://www.ch.embnet.org/software/TMPRED_form.html
PSORT: http://psort.hgc.jp//
Prosite: http://www.expasy.org/prosite/
ProScan: http://www.ebi.ac.uk/InterProScan/
SMART: http://smart.embl-heidelberg.de/#
MEME: http://meme-suite.org/tools/meme
SOMPA: http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopma.html
SWISS-MODEL: http://swissmodel.expasy.org/
‘叁’ 常用的生物信息学python库有哪些
常用的生物信息学python库:
Tkinter
Python默认的图形界面接口。Tkinter是一个和Tk接口的Python模块,Tkinter库提供了对Tk API的接口,它属于Tcl/Tk的GUI工具组。
PyGTK
用于python GUI程序开发的GTK+库。GTK就是用来实现GIMP和Gnome的库。
PyQt
用于python的Qt开发库。QT就是实现了KDE环境的那个库,由一系列的模块组成,有qt, qtcanvas, qtgl, qtnetwork, qtsql, qttable, qtui and qtxml,包含有300个类和超过5750个的函数和方法。PyQt还支持一个叫qtext的模块,它包含一个QScintilla库。该库是Scintillar编辑器类的Qt接口。
wxPython
GUI编程框架,熟悉MFC的人会非常喜欢,简直是同一架构(对于初学者或者对设计要求不高的用户来说,使用Boa Constructor可以方便迅速的进行wxPython的开发)
PIL
python提供强大的图形处理的能力,并提供广泛的图形文件格式支持,该库能进行图形格式的转换、打印和显示。还能进行一些图形效果的处理,如图形的放大、缩小和旋转等。是Python用户进行图象处理的强有力工具。
Psyco
一个Python代码加速度器,可使Python代码的执行速度提高到与编译语言一样的水平。
xmpppy
Jabber服务器采用开发的XMPP协议,Google Talk也是采用XMPP协议的IM系统。在Python中有一个xmpppy模块支持该协议。也就是说,我们可以通过该模块与Jabber服务器通信,是不是很Cool。
PyMedia
用于多媒体操作的python模块。它提供了丰富而简单的接口用于多媒体处理(wav, mp3, ogg, avi, divx, dvd, cdda etc)。可在Windows和Linux平台下使用。
Pmw
Python megawidgets,Python超级GUI组件集,一个在python中利用Tkinter模块构建的高级GUI组件,每个Pmw都合并了一个或多个Tkinter组件,以实现更有用和更复杂的功能。
PyXML
用Python解析和处理XML文档的工具包,包中的4DOM是完全相容于W3C DOM规范的。它包含以下内容:
xmlproc: 一个符合规范的XML解析器。Expat: 一个快速的,非验证的XML解析器。还有其他和他同级别的还有 PyHtml PySGML。
PyGame
用于多媒体开发和游戏软件开发的模块。
PyOpenGL
模块封装了“OpenGL应用程序编程接口”,通过该模块python程序员可在程序中集成2D和3D的图形。
NumPy、NumArray、SAGE
NumArray是Python的一个扩展库,主要用于处理任意维数的固定类型数组,简单说就是一个矩阵库。它的底层代码使用C来编写,所以速度的优势很明显。SAGE是基于NumPy和其他几个工具所整合成的数学软件包,目标是取代Magma, Maple, Mathematica和Matlab 这类工具。
MySQLdb
用于连接MySQL数据库。还有用于zope的ZMySQLDA模块,通过它就可在zope中连接mysql数据库。
Sqlite3
用于连接sqlite数据库。
Python-ldap
提供一组面向对象的API,可方便地在python中访问ldap目录服务,它基于OpenLDAP2.x。
smtplib
发送电子邮件。
ftplib
定义了FTP类和一些方法,用以进行客户端的ftp编程。如果想了解ftp协议的详细内容,请参考RFC959。
PyOpenCL
OpenCL的Python接口,通过该模块可以使用GPU实现并行计算。
‘肆’ 生信log11|生物信息学可视化工具介绍——Plotly Dash
对啊,简单好用的不香吗,为啥非得这个不可。目前这个模块主要应用对象是生物与药学研发这块的,对微生物群组应用的可视化不太有帮助。但胜在有些图能在线上传格式文本就可以作图了并且可以互动式操作,且免费免安装,对小白实属友好。
参考
https://dash.plotly.com/
官方参考示例
上述图片均来自网络以及官网截图
‘伍’ 学习生物信息学有哪些比较好的网站或论坛
生信菜鸟团上大学之后,我上网找资料时发现的第一个博客就是生信菜鸟团,里面包罗万象,涵盖很多方面(初次发现时,就感觉自己进入了新的天地)rabbit gao's blog 我超喜欢这个师兄的博客里面的笔记,很直观,尤其是python那部分。他是以代码的形式展示内容。沈梦圆博客梦圆师姐,和我一样喜欢用熊猫头像,她的博客也是刚刚建立不长时间。师姐的文笔很赞,看里面博文相信对你有帮助的。生信日志|鸣一道鸣一道师兄的博客我比较喜欢的是R做图那一块plob这个我比较少看,不过内容也不错,我后续再写上这个博客的描述。陈连福博客听说连福老师有开培训班,实力自然也不差。糗世界←欢迎来到糗糗的世界糗世界主要包括:序列比对与NGS R/bioconctorcircos教程,其中糗世界关于R和bioconctor以及NGS的归纳总结特别详尽生信客部落生信客部落是我自己的博客,刚建不久(2016.9.3建的),我目前在准备考研,打理的时间不多。但相信是一只潜力股,有提升的空间。也欢迎博友们交换 "友情链接".hope博客 hope 他(她)有一篇关于生物信息学在线工具的总结,我特别喜欢科研动力“endnote使用宝典”,专注写endnote相关的内容。(注:endnote 是文献管理的软件,插入引用文献的神器)biochen生物伯臣生物里也蛮多归纳整理的Bob's Blog bob这位兄弟的博客我接触不多,我后续补上描述.论坛(包括生信论坛和其他一些相关的网站):生信技能树生信技能树前面那个师兄有详细描述过。我也亲眼见证了它从无到有的过程,看着生信技能树感觉特别亲切,感觉就像自家的孩子一样。我自己由于准备考研和书写毕业论文的事情,在生信技能树建设的参与度不高。总之,好喜欢......生物信息学天空内容超全的一个生信论坛丁香园(生信板块)丁香园,就不解释了,一个国内最成功的论坛之一。医学生基本都知道的一个论坛。小木虫小木虫,里面蛮多资源的,也是国内最成功的论坛之一生物统计家园描述待输入...基因堂描述待输入biostars这是一个生信问答网站生信刷题网站ROSALIND | About 这个是一个生物信息的刷题网站,超多实战题(纯英文,既提高英语水平,又训练了自己的实战能力,何乐而不为)。实战走起......生物信息学在线工具网站生信客部落生物信息工具整合(包含在线工具与离线工具)–更新中这里面包含了一些生物信息学可视化工具,包含在线的工具和一些离线的可视化工具,由于目前个人水平有限,所以还有待继续完善
‘陆’ 列举常用的生物信息学数据库及序列对比常用软件及特点
一般来说所用的分析工具有在线跟下载的 下面简要列举一些常用在线软件的使用 1、使用VecScreen工具,分析下列未知序列,输出序列长度、载体序列的区域、可能使用的克隆载体都有哪些。一、步骤:
打开google 首页,搜索VecScreen,进入VecScreen首页,复制序列,运行,View report。
二、结果:
输出序列长度918bp,
载体序列的区域456bp——854bp.
克隆载体:M13mp18 phage,pGEM-13Zf(+),pBR322,pRKW2。
2、使用相应工具,分析下列未知序列的重复序列情况,输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的。
进入google首页,搜索RepeatMasker,进入RepeatMasker主页,进入RepeatMasking,复制序列,DNA source选择human,运行!点击超链接,在结果中选择
Annotation File :RM2sequpload_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,输出CpG岛的长度、区域、GC数量、所占的百分比及Obs/Exp值。一、步骤:
进入google首页,搜索CpGPlot,进入CpGPlot主页,program中选择cpgreport复制序列,运行!
二、结果:
CpG岛的长度:385bp
区域:48——432;
GC数量:Sum C+G=297,百分数=77.14
Obs/Exp:1.01
4、预测下面序列的启动子,输出可能的启动子序列及相应的位置。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索Neural Network Promoter Prediction,进入主页,复制序列,选择eukaryote,运行!
二、结果:
位置:711—761 ,1388—1438,1755—1805;
5、运用Splice Site Prediction工具分析下面序列,分别输出内含子-外显子剪接位点给体和受体的区域及剪接处位置的碱基。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索Splice Site Prediction,进入主页,复制序列。Organism选择Human or other。其他默认,运行!
二、结果:
供体:
受体:
6、对下面序列进行六框翻译,利用GENESCAN综合分析(首先确定给定序列的物种来源)哪个ORF是正确的,输出六框翻译(抓图)和GENESCAN结果(包括predicted genes/exons 和 predicted peptide sequence(s) 两个部分)。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是Zea的
进入google首页;搜索NCBI,进入主页,选择all resources(A~Z),选择O,选择ORF finder。复制序列,默认,运行!
二、结果:ORF图
三、步骤:进入google首页,搜索GENESCAN,进入主页,Organism:Maize, ,其他默认,运行!
四、结果:
G7、进入REBASE限制性内切酶数据库,输出AluI、MboI、EcoI三种内酶的Recognition Sequence和Type。
一、步骤:进入google首页,google in English,搜索REBASE,进入主页, 分别输入AluI、MboI、EcoI,运行!
在MboI中选择第一个,EcoI选择第二个。
二、结果:
ENSCAN图
8、使用引物设计工具,针对下列未知序列设计一对引物,要求引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃。请写出选择的一对引物(Forward Primer and Reverse Primer)、及相应的GC含量、引物的位点、Tm值和产物长度。一、步骤:进入google首页,搜索genefisher,进入主页,复制fasta格式,chechk input, sunmit, ; ;设置一下引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃; 。
二、结果:
GC含量:
引物的位点:
Tm值:
产物长度:。
9、将下面的序列用NEBcutter 2.0工具分析,用产生平末端及有四个酶切位点的酶进行酶切,并用抓图提交胶图(view gel),要求1.4% agarose和Marker为100bp DNA Ladder。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST,得知是linear。
进入google首页,搜索NEBcutter 2.0,进入主页,选择linear,运行!选择custom digest, ,把“1”改为“4”,选择平末端,后digest。View gel。选择1.4% agarose和Marker为100bp。
二、结果:
然后就是蛋白质的了一般都在expasy里swiss-prot 适用于检索的 compute pi/mw 求理论分子量 分子量 protparam物理化学性质 protscale亲水性疏水性 peptidemass分析蛋白酶和化学试剂处理后的内切产物
NCBI(www.ncbi.nlm.nih.gov)-GenBank数据库
数据库相似性搜索——核酸序列与核酸数据库比较(BLASTN)
蛋白质序列与数据库中蛋白质序列比较(BLASTP)
两序列比对(Align two sequences)
DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)
分析实验序列外显子部分——GENSCAN(http://genes.mit.e/GENSCAN.html)
分析实验序列的可能酶切位点——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
注: Custom digest -- view gel
限制性内切酶数据库——REBASE(http://rebase.neb.com/rebase/rebase.html)
设计引物扩增实验序列——Genefisher
Primer 3
蛋白质序列分析及结构预测:
1.预测蛋白质的分子量及等电点:ExPASy(Compute pI/Mw)
2.分析蛋白质的基本物理化学性质:ExPASy(ProtParam)
3.分析蛋白质的亲水性和疏水性:ExPASy(ProtScale)
4.分析蛋白质在各种蛋白酶和各种化学试剂处理后的内切产物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白质的信号肽:ExPASy(SignalP)
6.预测蛋白质的二级结构:ExPASy(Jpred 3)
多物种分子系统发育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W
人脂联素蛋白质序列:NP_004788
人类胰岛素生长因子IB前体:P05019
‘柒’ 生物信息学中分析lncRNA的工具有哪些
分析lncRNA的工具和方法
1、宏观分析工具
长链非编码RNA研究领域的进展离不开基因组测序和基因芯片技术的广泛使用,如通过构建cDNA文库和测序发现ncRNA;通过比较基因组生物信息分析发现ncRNA;利用tiling芯片、ncRNA芯片检测ncRNA。通过转录组测序或tiling芯片检测,可以在全基因组范围内系统地研究可转录RNA区域,有助于大量发现非编码RNA。基因芯片可以高密度检测所有非编码RNA,通过表达谱研究发现组织特异性、疾病相关性,就可以缩小研究范围,找出值得深入研究的ncRNA目标,再结合传统的基因敲除、RNAi等技术确定其功能和作用机制。
2、微观分析工具
KD方法
A、RNAi方法
化学合成的siRNA
艾博思生物引进国际上比较公认成熟的方法设计5对siRNA oligos,针对客户提供的非编码长链RNA进行干扰
shRNA载体构建
艾博思生物引进国际上比较公认成熟的方法设计5对shRNA vector,针对客户提供的非编码长链RNA进行干扰
B、反义核酸或者核酶技术
利用经典的ASO和Riozyme的方法进行抑制lncRNA的作用,艾博思可以提供DNA或者RNA的合成服务
C、小分子抑制剂的虚拟筛选
艾博思生物信息学团队,通过分子模拟ncRNA的结构,设计小分子抑制剂来干预ncRNA作用
OVER-Expression方法
艾博思生物可以给您全基因合成或者调取已经发现的所有的非编码长链RNA
艾博思生物可以帮你构建表达载体供您使用
选用载体: pcDNA3.1 等等
‘捌’ 生物信息学常用的软件有哪些
NCBI(www.ncbi.nlm.nih.gov)-GenBank数据库
数据库相似性搜索——核酸序列与核酸数据库比较(BLASTN)
蛋白质序列与数据库中蛋白质序列比较(BLASTP)
两序列比对(Align two sequences)
DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)
分析实验序列外显子部分——GENSCAN(http://genes.mit.e/GENSCAN.html)
分析实验序列的可能酶切位点——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
注: Custom digest -- view gel
限制性内切酶数据库——REBASE(http://rebase.neb.com/rebase/rebase.html)
设计引物扩增实验序列——Genefisher
Primer 3
蛋白质序列分析及结构预测:
1.预测蛋白质的分子量及等电点:ExPASy(Compute pI/Mw)
2.分析蛋白质的基本物理化学性质:ExPASy(ProtParam)
3.分析蛋白质的亲水性和疏水性:ExPASy(ProtScale)
4.分析蛋白质在各种蛋白酶和各种化学试剂处理后的内切产物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白质的信号肽:ExPASy(SignalP)
6.预测蛋白质的二级结构:ExPASy(Jpred 3)
多物种分子系统发育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W
人脂联素蛋白质序列:NP_004788
人类胰岛素生长因子IB前体:P05019
‘玖’ 生物信息学工具
实验二工具:
1 相似性比对用blast 注意限定条件,注意:blast时必须是fasta格式
2 对给出的氨基酸序列进行相似性比较,确定其编码的蛋白质 blast限定(swiss prot)
3 搜索不同物种的同源基因 用blast注意advanced加限制条件(organism; gene name) 利用blastn进行相似性同源基因搜索(others)
实验三工具:
1 分析下列未知序列,输出序列长度、载体序列的区域、可能使用的克隆载体都有哪些用VecScreen
2 分析下列未知序列的重复序列情况,输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence用
RepeatMasker
CENSOR
3 使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,输出CpG岛的长度、区域、GC数量、所占的百分比及Obs/Exp值用
EMBL→tools→sequence Analysis→在program上选择cpgreport
4 预测下面序列的启动子,输出可能的启动子序列及相应的位置用
fruitfly→Analysis Tools→Promoter Prediction-M.G. Reese
5 六框翻译用Genscan ORF(在ncbi里找)
6 限制性内切酶数据库用REBASE
7 引物设计工具用 primer3
8 酶切位点用 NEBcutter
实验四工具
1 Expasy中查找前体用swiss-port
2 分子量和等电点 用Expasy中的Compute pI/MW
3 前提的物理化学性质用Expasy中的Protparmam 包括蛋白质的相对分子质量,理 论pI值,氨基酸组成,原子组成,消光系数,半衰期,不稳定系数,总平均亲水性
4 前提的亲水性和疏水性用Expasy中的ProtScale
5 前提在各种蛋白酶和试剂处理后的内切产物用Expasy中的PeptideMass
6 查看信号肽直接Google→Signa1P
7 二级结构 直接Google→SOPMA
实验五工具
1 系统发育地位检索 用网络→tree of life
‘拾’ 生物信息学一些基本的常用软件有哪些
必学:1、计算机基础(linux+perl+R 或者 python+matlab)
2、生信基础知识(测序+数据库+数据格式)
3、生信研究领域(全基因组,全转录组,全外显子组,捕获目标区域测序)
4、生信应用领域(肿瘤筛查,产前诊断,流行病学,个性化医疗)
分而治之:
一、计算机基础,需要看三本书,一步步的学会学通,不需要刻意去找哪个书,一般linux是鸟哥私房菜,perl是小骆驼咯,R是R in action,但是看一本书只能入门,真正想成为菜鸟,必须每个要看五本书以上!我云盘里面有这基本上的高清打印版,大家可以去淘宝打印一下才几十块钱还包邮,对书比较讲究的也可以买正版,也不过是一百多块钱而已!
二、生信基础知识,测序方面,在网络文库找十几篇一代二代三代测序仪资料仔细研读,然后去优酷下载各大主流测序仪的动画讲解,再看看陈巍学基因的讲解;数据库先看看三大主流数据库——NCBI,ENSEMBL,UCSC,还有一些也可以了解一些(uniprot,IMGT,KEGG,OMIN,TIGR,GO)同样也是网络文库自己搜索资料,但是这次需要自己去官网一个个页面点击看,一个个翻译成中文理解吃透;数据格式讲起了就多了,这个主要是在项目流程中慢慢学,或者你有机会去上课,不然你看来也是立马忘记的,主要有sam,vcf,fasta,fastq,bed,gtf,gff,genbank,ensembl,psl等等
三、生信研究领域,各个领域主要是软件繁多,合起来常用的估计有上百个软件了,一般只有从业五六年以上的人才有可能把它们全部用过一遍,而且这也完全需要项目来训练,而不能仅仅是看看软件手册,但是研究领域最重要的是背后的原理,需要看各大牛的综述。
a) 生信基础软件(blast++套件,fastqc,flash,blast,solexaQA,NGS-QC-toolkit,SRA-toolkit,fastx-toolkit)
b) snp-calling相关软件(bwa,bowtie,samtools,GATK,VarScan.jar,annovar)
c) 基因组相关软件(velvet,SOAPdenovo2,repeatmasker,repeatscount,piler,orthMCL,inparanoid,clustw,muscle,MAFFT,quickparanoid,blast2go,RAxML,phyML)
d) 转录组相关软件(trinity,tophat,cufflinks,RseQC,RNAseq,GOseq,MISO,RSEM,khmer,screed,trimmomatic,transDecoder,vast-tools,picard-tools,htseq,cuffdiff,edgeR,DEseq,funnet,davidgo,wego,kobas,KEGG,Amigo,go)