0 Comments

mothur分析16s序列,pcr.seqs start和end位置

发布于:2018-03-22  |   作者:admin  |   已聚集:人围观
    mothur的SOP中,将tags比对到silva数据的目的是让tags基本在目标区间以内,这也是过滤的步骤之一。由于silva数据库的16s序列为全长或接近全长,直接比对会显著增加计算量(alignment的计算量是相当惊人的)。因此,从数据库中取目标片段做比对是减少计算量的有效方法,pcr.seqs()则提供该功能。
    SOP以v4区为例,保留了11894-25319区间,命令如下:

mothur > pcr.seqs(fasta=silva.bacteria.fasta, start=11894, end=25319, keepdots=F, processors=8)


    那么,v3-v4区间如何选择呢?v3-v4区域是start=6428,end=23444,下面将演示如何确定start和end的值。

第一步,下载 E. coli参考序列,并截取目标区域(338f-806r)。
下载地址: https://www.ncbi.nlm.nih.gov/nuccore/J01859
这里用primer手工搜索也可以搞定,我这里没有保留primer本身的序列,因此,截取的v3-v4区域长度为428bp,保存为fasta格式(ecoli_v3v4.fasta)。

第二步,下载silva数据库
https://mothur.org/wiki/MiSeq_SOP

第三步,将E. coli的v3-v4区域序列(第一步截取之后的序列)与silva数据库中的序列进行比对
mothur > align.seqs(fasta=ecoli_v3v4.fasta, reference=silva.nr_v128.align)
 
第四步,查看结果
mothur > summary.seqs(fasta=ecoli_v3v4.align)


mothur pcr.seqs
标签:mothur(1)16s(2)
    输入验证码:
点击我更换验证码