小编给大家分享一下CPAT软件有什么用,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!随着高通量测序在lncRNA研究领域的应用, 越来越多的lncRNA被发现。对于转录组测序的数据而言,组装得到转录本之后,首先要做的就是区分蛋白编码和非蛋白编码的RNA。目前针对这一问题,有多种解决方案,基本可以分为以下两类alignment-basedalignment-free
第一种算法基于序列比对,可以较好的识别保守性较好的蛋白编码基因, 包括CPC
,PhyloCSF
等软件; 第二种算法不需要比对,而是通过coding和non-coding转录本的序列特征来进行区分,包括CNCI
, CPAT
, PLEK
等。lncRNA在物种间的保守性较差,另外部分lncRNA的染色体位置和蛋白编码基因存在重叠,通过序列比对的方式来区分容易造成误判。除此之外,基于序列比对的软件,其运行速度相对较慢,所以采用第二种算法的软件综合效果更好。本文主要介绍CPAT
的使用,网址如下http://lilab.research.bcm.edu/cpat/对于一个转录本而言,它是coding还是noncoding, 本质上是一个二分类问题,所以CPAT
的开发者想到了通过逻辑回归来解决这个问题。该软件基于以下四个特征构建了逻辑回归模型来区分coding和noncodingopen reading frame sizeopen reading frame coverageFickett TESTCODE statistichexamer usage bias
前两个因素都是针对开放阅读框定义的,第一个因素是开放阅读框的大小,第二个因素是开放阅读框占转录本总长度的比例,第三个因素基于序列的碱基组成和密码子分布进行定义,第四个因素基于序列中六聚体的频率进行定义。在论文中,针对以上4种特征,首先评估在coding和noncoding中的分布,图示如下可以看到,coding和noncoding形成了两个不同的峰,说明这4种特征在coding 香港云主机和noncoding之间确实存在差异。在论文中还通过ROC
曲线评估了不同软件的性能,结果如下可以看到CPAT
和CPC
的效果是最好的。CPAT
基于python编程语言开发,安装非常的简便,代码如下该软件既可以在本地运行,也提供了在线版本。在线版本的网址如下http://lilab.research.bcm.edu/cpat/可以直接输入fasta格式的序列,也可以输入bed格式的文件,此时需要指定对应的基因组版本,示意如下本地版本对应的也有两种用法,输入bed
文件的用法如下输入fasta
文件的用法如下-d
和-x
参数对应的文件为软件构建好的模型,位于软件的安装目录下。软件的输出结果如下所示最后一列给出了转录本的蛋白编码信息,yes
代表该转录本为protein-coding转录本,no
代表该转录本为noncoding转录本。
看完了这篇文章,相信你对“CPAT软件有什么用”有了一定的了解,如果想了解更多相关知识,欢迎关注开发云行业资讯频道,感谢各位的阅读!
这篇文章主要为大家展示了“redis主要有哪些数据类型”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“redis主要有哪些数据类型”这篇文章吧。redis 主要有以下几种数据类型:stringhashlistsets…
免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。