0 Comments

分享一个htseq-count简单修改版

发布于:2017-04-12  |   作者:admin  |   已聚集:人围观

由于做RNA-seq用到了htseq-count,出于偷懒的目的,简单修改了一下htseq-count,不用再一个个的sam文件输入文件再得到一个个独立的结果文件。修改之后可以直接以list的形式输入,再得到一个count table。

输入文件格式为一行一个输入,可以以相对路径或者绝对路径的形式将每个输入的sam文件做一个list(一行一个)以-l(--list)参数输入,结果则使用参数(-r/--result)输出,以每个样本一列的形式保存在table中。

其中,主要参数不变,只是添加了一个-l(--list)参数,作为多个样本输入。原版的htseq-count见博文《htseq-count使用方法和参数简要说明》。

 

脚本下载:

htseq count


(若脚本无法下载,可以发送邮件给我,或者留言)

 

Usage:python htseq_count_multi.py [options] <gff_file>

参数说明:

  -l /--list  样本list文件,使用该参数之后,不再需要在命令行输入sam文件路径。

  -r/--result  所有样本计数结果的输出文件,默认为当前文件夹下的 count_result.txt 文件。

  -m  计数模型,统计reads的时候对一些比较特殊的reads定义是否计入。包括:默认的union和intersection-strict、 intersection-nonempty具体说明如图所示。

-s reads是否匹配到同一条链上,默认:yes,可以设置no 、 reverse 

-t feature type 我理解为最小的计数单位,在gtf或者gff文件中,外显子为最小的定义单      位,对基因计数,只需要将包含的外显子计数相加即可。 默认:exon

-i 最终的计数单位,一般为基因。 默认为:gene_id   也可以设置转录本,但由于模型问题,计数效果不佳。

-o 输出所有alignment的reads到一个sam文件中。可以不设置。

-q 退出程序

-h 帮助文件

标签:htseq-count(2)RNA-Seq(1)
    输入验证码:
点击我更换验证码