怎样从UCSC下载基因组的GTF文件


怎样从UCSC下载基因组的GTF文件,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。从UCSC下载基因组的GTF文件有两种方式,一种是利用table browser 浏览器,另外一种是通过FTP服务。Table Browser提供了一个检索和下载的入口,支持多种格式的下载,下载gtf文件只是其中一个功能,网址如下http://genome.ucsc.edu/cgi-bin/hgTables第一行的3个标签用于确定确定物种和版本。clade提供了物种分类,包括以下类型Mammal 哺乳动物Vertebrate 脊椎动物Deuterostome 后口动物Insect 昆虫Nematode 线虫Viruses 病毒other 其他
从这里的类别也可以发现,UCSC主要提供了动物的基因组,如果想要下载植物基因组的相关文件,只能考虑NCBI,Ensembl了。根据clade的类别,可以快速查找物种。genome选择对应的物种名字,assembly选择基因组版本。group用于选择文件保存信息的类型,提供了以下类型Mapping and SequencingGenes and Gene PredictionsPhenotype and LiteraturemRNA and ESTExpressionRegulationComparative GenomicsVariationRepeatsAll TracksAll Tables
GTF文件保存的是基因和转录本的结构信息,所以选择2,track选择对应的数据库和版本,通常选择NCBI RefSeqtable选择数据,对于NCBI RefSeq, 提供了如下选择RefSeq AllRefSeq CuratedRefSeq PredictedUCSC RefSeq
RefSeq All代表RefSeq中所有的转录本信息,RefSeq Curated代表核对过的数据,可信度较高,以NM, NR, YP开头,RefSeq Predicted代表预测的数据,以XM, XR开头;UCSC RefSeq 代表所有以NM, NR开头的转录本信息。通常选择UCSC RefSeq即可。region选择下载的区域,是选择整个基因组,还是只是染色体上的部分区域。
output format选择输出文件格式,常用的有以下两种GTF(limited)BED
output file指定输出文件的名字,如果不指定,默认会显示在浏览器中共,如果下载整个基因组的信息,建议填写输出文件的名字,file typ 香港云主机e returned选择返回文件的格式,支持返回压缩文件。通过简单的勾选,就可以下载到GTF文件了。但是这种方式下载的GTF文件是有限制的,只包含了转录本ID, 示例如下转录本对应的基因名称时非常重要的信息,如果要解决这个问题,可以通过FTP服务器进行下载。UCSC的FTP服务提供了物种的注释文件供下载,hg38的FTP地址如下http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/但是FTP中并没有直接提供bed12, gtf 格式的文件,因为这些格式存在冗余信息,文件大小会比较大。为例节省磁盘空间,UCSC提出来genePred这种格式。这种格式每一行代表一个转录本信息,冗余信息较少。更多的介绍可以参考官方文档
https://genome.ucsc.edu/FAQ/FAQformat.html#format9UCSC RefSeq这种信息对应的文件为refGene.txt.gz, 对于该文件,需要借助UCSC官方提供的格式转换工具转换为gtf格式。其中genePredToGtf就是把genepred格式转换为gtf格式的工具。使用方式如下refGene.txt的第一列信息是多余的,删除之后,整个文件就是genePred格式了。最终生成的文件如下可以看到,gene_id的信息是有了。但是还是有点不足之处,相比NCBI和Ensembl, UCSC提供的GTF文件中共缺少了gene_biotype的信息,无法确定基因类型。关于怎样从UCSC下载基因组的GTF文件问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注开发云行业资讯频道了解更多相关知识。

相关推荐: Elasticsearch的介绍以及原理是什么

本篇内容主要讲解“Elasticsearch的介绍以及原理是什么”,感兴趣的朋友 香港云主机不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Elasticsearch的介绍以及原理是什么”吧!最近在参与一个基于Elasticsear…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

Like (0)
Donate 微信扫一扫 微信扫一扫
Previous 09/22 10:46
Next 09/22 10:46

相关推荐