MEGAHITのPaired-endアセンブリが怪しい

MEGAHITは言わずと知れた、de Bruijn graphを利用したメタゲノム用の高速アセンブラである。

MEGAHITはFASTQをインプットとし、Paired-endとSingle-endの両方に対応している。

Input options that can be specified for multiple times (supporting plain text and gz/bz2 extensions)

-1 <pe1> comma-separated list of fasta/q paired-end #1 files, paired with files in <pe2>

-2 <pe2> comma-separated list of fasta/q paired-end #2 files, paired with files in <pe1>

--12 <pe12> comma-separated list of interleaved fasta/q paired-end files

-r/--read <se> comma-separated list of fasta/q single-end files

Paired-endの場合はファイルの形式に応じて-1, -2か-12で指定する。Single-endは-r。

ミトコンドリアの完全ゲノムを得るために、ミトコンドリアにマップされたリードのみを抽出し、いくつかのアセンブラでテストをしていたときのこと。

(MEGAHIT v1.1.1-2-g02102e1)

公開データの中には、Paired-endとSingle-endの両方があったので、Paired-endのデータは-1,-2で、Single-endは-rで指定していた。

すると、なぜかSingle-endのときにのみ完全ゲノム1本がきれいに出力された。Single-endのシーケンサはIllumina GA-IIで、長さも100bpであり、決して他に秀でてうまくアセンブルできるとは思えなかった。

そこで、Paired-endのものもForwardだけを用いて-rでアセンブルしてみたところ、(孤立した配列はいくつか混じっていたものの)完全長のコンティグが生成できた。

MEGAHITはPairの情報をそこまで利用していないという認識があったので、この結果には驚いた。他のバージョンは試していないが、Singleにしたほうが断然良い結果であった。メタゲノムデータに対する場合はわからないが、Singleにしたほうが良い結果が出る場合が他にもあるかも知れないので注意したい。