怎样从UCSC下载基因组的GTF文件,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。从UCSC下载基因组的GTF文件有两种方式,一种是利用table browser 浏览器,另外一种是通过FTP服务。Table Browser提供了一个检索和下载的入口,支持多种格式的下载,下载gtf文件只是其中一个功能,网址如下http://genome.ucsc.edu/cgi-bin/hgTables第一行的3个标签用于确定确定物种和版本。clade
提供了物种分类,包括以下类型Mammal 哺乳动物Vertebrate 脊椎动物Deuterostome 后口动物Insect 昆虫Nematode 线虫Viruses 病毒other 其他
从这里的类别也可以发现,UCSC主要提供了动物的基因组,如果想要下载植物基因组的相关文件,只能考虑NCBI,Ensembl了。根据clade
的类别,可以快速查找物种。genome
选择对应的物种名字,assembly
选择基因组版本。group
用于选择文件保存信息的类型,提供了以下类型Mapping and SequencingGenes and Gene PredictionsPhenotype and LiteraturemRNA and ESTExpressionRegulationComparative GenomicsVariationRepeatsAll TracksAll Tables
GTF文件保存的是基因和转录本的结构信息,所以选择2,track
选择对应的数据库和版本,通常选择NCBI RefSeq
。table
选择数据,对于NCBI RefSeq, 提供了如下选择RefSeq AllRefSeq CuratedRefSeq PredictedUCSC RefSeq
RefSeq All代表RefSeq中所有的转录本信息,RefSeq Curated代表核对过的数据,可信度较高,以NM
, NR
, YP
开头,RefSeq Predicted代表预测的数据,以XM
, XR
开头;UCSC RefSeq 代表所有以NM
, NR
开头的转录本信息。通常选择UCSC RefSeq
即可。region
选择下载的区域,是选择整个基因组,还是只是染色体上的部分区域。output format
选择输出文件格式,常用的有以下两种GTF(limited)BEDoutput file
指定输出文件的名字,如果不指定,默认会显示在浏览器中共,如果下载整个基因组的信息,建议填写输出文件的名字,file typ 香港云主机e returned
选择返回文件的格式,支持返回压缩文件。通过简单的勾选,就可以下载到GTF文件了。但是这种方式下载的GTF文件是有限制的,只包含了转录本ID, 示例如下转录本对应的基因名称时非常重要的信息,如果要解决这个问题,可以通过FTP服务器进行下载。UCSC的FTP服务提供了物种的注释文件供下载,hg38的FTP地址如下http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/但是FTP中并没有直接提供bed12, gtf 格式的文件,因为这些格式存在冗余信息,文件大小会比较大。为例节省磁盘空间,UCSC提出来genePred
这种格式。这种格式每一行代表一个转录本信息,冗余信息较少。更多的介绍可以参考官方文档
https://genome.ucsc.edu/FAQ/FAQformat.html#format9UCSC RefSeq这种信息对应的文件为refGene.txt.gz
, 对于该文件,需要借助UCSC官方提供的格式转换工具转换为gtf格式。其中genePredToGtf
就是把genepred格式转换为gtf格式的工具。使用方式如下refGene.txt的第一列信息是多余的,删除之后,整个文件就是genePred
格式了。最终生成的文件如下可以看到,gene_id的信息是有了。但是还是有点不足之处,相比NCBI和Ensembl, UCSC提供的GTF文件中共缺少了gene_biotype的信息,无法确定基因类型。关于怎样从UCSC下载基因组的GTF文件问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注开发云行业资讯频道了解更多相关知识。
本篇内容主要讲解“Elasticsearch的介绍以及原理是什么”,感兴趣的朋友 香港云主机不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Elasticsearch的介绍以及原理是什么”吧!最近在参与一个基于Elasticsear…
免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。