0 Comments

htseq-count使用方法和参数简要说明

发布于:2014-08-15  |   作者:admin  |   已聚集:人围观

 htseq-count是一款用于reads计数的轻便软件,作者介绍说可以用于多种mapping软件的输出结果,而我则用于tophat2的输出文件做计数。不过貌似所有能转换为sam格式文件的输出都可以用htseq-count计数。

 htseq-count的输入文件

  输入为sam格式的文件,如果是paired-end数据必须按照reads名称排序(sort by name)。官方推荐了msort,不过我用起来感觉不是很方便(也可能是使用方法不当),于是我采用了samtools先对bam文件(tophat2的输出结果为bam)排序,再转换为sam。

  命令:samtools sort -n file.bam #sort bam by name

            samtools view -h bamfile.bam>samfile.sam

htseq-count的使用和参数

Usage:htseq-count [options] <sam_file> <gff_file>

   参数说明

 -m  计数模型,统计reads的时候对一些比较特殊的reads定义是否计入。包括:默认的union和intersection-strict、 intersection-nonempty具体说明如图所示。

htseq-count-s reads是否匹配到同一条链上,默认:yes,可以设置no 、 reverse 

-t feature type 我理解为最小的计数单位,在gtf或者gff文件中,外显子为最小的定义单      位,对基因计数,只需要将包含的外显子计数相加即可。 默认:exon

-i 最终的计数单位,一般为基因。 默认为:gene_id   也可以设置转录本,但由于模型问题,计数效果不佳。

-o 输出所有alignment的reads到一个sam文件中。可以不设置。

-q 退出程序

-h 帮助文件

标签:htseq-count(2)
    输入验证码:
点击我更换验证码