欢迎访问 生活随笔!

尊龙凯时首页

当前位置: 尊龙凯时首页 > 编程资源 > 编程问答 >内容正文

编程问答

nextpolish安装-尊龙凯时首页

发布时间:2024/10/14 编程问答 11 豆豆
尊龙凯时首页 收集整理的这篇文章主要介绍了 nextpolish安装_「三代组装」使用pilon对基因组进行polish 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

软件安装

官方提供了编译好的jar包,方便使用

wget https://github.com/broadinstitute/pilon/releases/download/v1.23/pilon-1.23.jar

java -xmx16g -jar pilon-1.23.jar

如果要顺利运行程序,要求java > 1.7, 以及根据基因组大小而定的内存,一般而言是1m大小的基因对应1gb的内存。

总览

pilon有如下作用

对初步组装进行polish

寻找同一物种不同株系间的变异,包括结构变异检测

他以fasta和bam文件作为输入,根据比对结果对输入的参考基因组进行提高,包括

单碱基差异

小的插入缺失(indels)

较大的插入缺失或者block替换时间

填充参考序列中的n

找到局部的错误组装

最后它输出polish后的fasta文件, 以及包含变异信息的vcf文件(可选)

分析流程

推荐使用pcr-free建库测序得到的illumina paired-end数据,这样子避免了pcr-duplication,有效数据更多,也不需要在分析过程中标记重复。

下面步骤,假设你的组装文件为draft.fa, 质量控制后的illumina双端测序数据分别为read_1.fq.gz和read_2.fq.gz

第一步:比对

bwa index -p index/draft draft.fa

bwa mem -t 20 index/draft read_1.fq.gz read_2.fq.gz | samtools sort -@ 10 -o bam -o align.bam

samtools index -@ 10 align.bam

第二步:标记重复(非pcr-free建库)

sambamba markdup -t 10 align.bam align_markdup.bam

第三步:过滤高质量比对的read

samtools view -@ 10 -q 30 align_markdup.bam > align_filter.bam

samtools index -@ 10 align_filter.bam

第三步:使用pilon进行polish

memory= #根据基因组大小而定

java -xmx${memory}g -jar pilon-1.23.jar --genome draft.fa --frags align_filer.bam \

--fix snps,indels \

--output pilon_polished --vcf &> pilon.log

一般pilon迭代个2到3次就够了,所谓事不过三,过犹不及。

关于pilon的一些参数说明:

--frags表示输入的是1kb以内的paired-end文库,--jumps表示 大于1k以上的mate pair文库, --bam则是让软件自己猜测

-vcf: 输出一个vcf文件,包含每个碱基的信息

--fix: pilon将会处理的内容,基本上选snps和indels就够了

--variant: 启发式的变异检测,等价于--vcf --fix all,breaks, 如果是polish不要使用该选项

minmq: 用于pilon堆叠的read最低比对质量,默认是0。

阅读日志输出

这个日志文件是标准输出而不是标准错误输出,不过保险起见用&>

最开始,pilon会输出他的版本信息(如下示例),以及将会对基因组做的调整,

pilon version 1.14 sat oct 31 14:30:00 2015 -0400

genome: genome.fasta

fixing snps, indels

其中fixing后面的含义为:

"snps": 单碱基差异

"indels":小的indel的差异

"amb": 替换原有的n

"gaps": 填充基因组的gap

"local": 检测和修改错误组装

"all": 上述所有

"none": 不是上述的任何一种

接着pilon会分染色体对bam文件进行处理,根据bam文件进行堆叠(pileup), 这个时候它会输出有效reads的深度,这里的有效reads包括未成对的read和正确成对的read。

processing ctg1:1-5414473

frags align_mkdup.bam: coverage 19

total reads: 808985, coverage: 19, mindepth: 5

从pilon v1.14开始,pilon还会输出基因组得到确认的碱基比例。

confirmed 5403864 of 5414473 bases (99.80%)

后续是pilon将会对原参考基因组做的一些调整的总体情况,如下表示纠正2个snp, 2个小的插入,4个缺失。

corrected 2 snps; 0 ambiguous bases; corrected 2 small insertions totaling 12 bases, 4 small deletions totaling 6 bases

最后声明当前部分处理结束

finished processing ctg1:1-5414473

如果,在--fix中选了gaps, 那么输出的内容还有如下内容。其中82048 -0 276解释为在坐标82428处移除0个碱基,插入276个碱基。

# attempting to fill gaps

fix gap: scaffold00001:82428-93547 82428 -0 276 closedgap

参考资料

总结

以上是尊龙凯时首页为你收集整理的nextpolish安装_「三代组装」使用pilon对基因组进行polish的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得尊龙凯时首页网站内容还不错,欢迎将尊龙凯时首页推荐给好友。

网站地图