MEGAHITのPaired-endアセンブリが怪しい

MEGAHITは言わずと知れた、de Bruijn graphを利用したメタゲノム用の高速アセンブラである。 MEGAHITはFASTQをインプットとし、Paired-endとSingle-endの両方に対応している。 Input options that can be specified for multiple times (supporting plain te…

Bowtie2で許容編集距離を設定する

Bowtie2のoptionは複雑で、とりあえずデフォルトで回してからSAMをパースしている人は多いかもしれない。 マニュアルを良く読むとスコアをきちんと設定すれば色々設定できる。Bowtie 2: Manual 特に以下の部分。 Scoring options --mp MX,MN Sets the maximu…

PythonのListとDictionaryの検索機能の速さ

"in"を使って要素の有無を判定する時、ListとDictionaryで速いのはどちらなのだろうと疑問に思ったので調べた。with Python 2.7.11 l = [1,2,3,4,5] for i in range(10000000): if 1 in l: pass real 0m1.017s user 0m0.853s sys 0m0.141s d = {1:"", 2:"", …

PythonのnetworkXを使ってpathway解析をする

ある遺伝子(機能)セットと代謝ネットワークデータを用いて、上流の化合物から下流の化合物に行くpathwayがあるか調べたい。 PythonのnetworkXを使って最短経路を出すドキュメントはたくさんあったが、エッジの有無によってFlow解析についてはあまりなかった…

cutadaptをlocal installする

アダプタープライマートリムツールであるcutadaptをローカルでインストールしたバージョンで動かしたいという場合の方法。 cutadaptはpipでインストールすることができるが、実行時に実際に直接叩いているのは以下のスクリプト。 #!/usr/bin/python import s…

MAFFTでアラインメントの距離行列を得る

MAFFTのTipsに "How to get a distance matrix, instead of alignment" の記述があるものの、まだドキュメントが作成されていないようだったので調査。mafftのドキュメントにはないが、binaryの中に"mafft-distance"(source)と言うものがあったので使ってみ…

Pythonで配列のJaccard距離を計算する(scipy.spatial.distance.jaccard)

Jaccard距離とは2配列間の距離(類似性の逆)をその要素の正誤によって求める指標である。 しかし、配列の要素がNaNかNaNでないか(または0か0より大きいか)を区別したい場合と、完全に値が一致しているかしていないかを区別したい場合などがある。 scipyにはsc…

Pandasで全て欠損値(NaN)の行を除く

特定のカラムを除いた後にすべて欠損値の行ができてしまうと後の解析でエラーを吐く可能性があるので取り除いておきたい場合がある。 frame.ix[frame.notnull().any(axis=1), :] を使う。 isnull(), notnull()の出力を、all(), any()をaxisとともに組み合わ…

PyMC3 pm.sample()でAttributeErrorが出る

Traceback (most recent call last): File "test_pymc.py", line 18, in <module> trace = pm.sample(niter, step, start) File "pymc3/sampling.py", line 224, in sample init = init.lower() AttributeError: 'dict' object has no attribute 'lower' pipでバージ</module>…

qsubでlocal installしたツールを叩く

qsubで計算クラスターにジョブを投げる際、ローカルインストールしたツールを叩きたい時がよくあります。 いままでは何も考えずにスクリプトに直接絶対PATHを書いていたのですが、 ツールによってはその内部でPATHに通っている別のプログラムを呼び出してい…

PyenvのAnacondaでインストールしたモジュールがインポートできない(解決)

$ pyenv install anaconda2-4.2.0 $ conda install foo $ python Python 2.7.12 |Anaconda 4.2.0 (x86_64)| (default, Jul 2 2016, 17:43:17) [GCC 4.2.1 (Based on Apple Inc. build 5658) (LLVM build 2336.11.00)] on darwin Type "help", "copyright", "…

動画まとめ

aLeavesは最終確認をしてもらっているので上がりませんがもう全部できています。Arabidopsis eFP Browser でシロイヌナズナの遺伝子発現情報を見る 統合TV(togotv)|生命科学系DB・ツール使い倒し系チャンネル こっちは上がった

aLeave MAFFT 3

苦情 要請が来たので修正しました。系統樹推定についてよくわかっていなかったらしく、MAFFTサーバに渡してからの作業が結構適当だったようです。BLASTで相同性検索をして取ってきたデータを元にして作ったtreeはguide treeというようで、これは系統樹とは言…

Arabidopsis eFP Browser 2

一通り編集も終わって原型ができてしまったのですが、h_onoさんが不在だったためうpは次回になりそうです。 ということでこのブラウザの特徴を言葉で書いていこうと思います。(前回消えたやつや)・遺伝子のIDを入力することで、その遺伝子発現量を見る。 …

Arabidopsis eFP Browser 1

調査報告を書いていたのですがログアウトされて全部消えていたので面倒なので書きません。 チケットにある調査依頼はクリアしているので撮影しました。追記 動画を撮り終わって2分ほど編集しました。

aLeaves2

作った動画を確認していただいたところまた仕様が変わるらしくpendingらしいです。 緊急で作ってと言われたのに仕様変更を差し挟むとはなかなか気が利いていますね。アップ出来たら載せられる予定だった文章でも貼っておきます。aLeaves - first step to bui…

aLeaves1

aLeaves - first step to build zoologically informative phylogenetic trees分子系統解析をするツールです。 なんか1日で動画編集終了まで行ってしまったので確認したらすぐ上がると思います。

GeneStudio3

GeneStudioを使って塩基配列をアセンブルする 統合TV(togotv)|生命科学系DB・ツール使い倒し系チャンネル出来ました。今回は慣れている分野だったので早業かも。 動画で使っているデータは自炊したもので貼っていいか分からなかったので貼ってません。ABIの…

GeneStudio2

GeneStudio1に追記しましたが、複数のreadsをアセンブルするにはGeneStudioがとても便利だということがわかったので、こちらを用いて解説動画を作ります。BioEditでも出来ないことはないですが、複数を同時にやることは不可能だし、波形と配列を逆転して表示…

GeneStudio1

GeneStudio.com | Free molecular biology softwareDNA配列のサンガーシークエンスによって得られた波形ファイル(ab1)を扱うソフトウェアです。 複数の配列ファイルをマルチプルアラインメントしたり、断片をアセンブルしたりするのが主な用途です。波形を扱…

CiteAb 1

次に動画を作ろうとしたのはCiteAb | The Antibody Search Engine というサイトなのですが、似た検索サイトに 抗体検索サイトBioBreaを使い倒す 統合TV(togotv)|生命科学系DB・ツール使い倒し系チャンネル というものがあります。今回はこのサイトとの比較…

HumanBrainTranscriptome 4

3日前に来た時に日記を書き忘れましたHuman Brain Transcriptomeを使ってヒトの脳の発達に関する時空間トランスクリプトームを見る 統合TV(togotv)|生命科学系DB・ツール使い倒し系チャンネルできてました

HumanBrainTranscriptome 3

この前撮影したものについて、8割方編集が終わりました。 英語を翻訳する(あるいは翻訳されたものを探す)のが時間がかかりますねぇ。 追加調査についてはまた次週。

HumanBrainTranscriptome 2

サイトの機能としては、(Webツールとして解析するのではなく)データベースとして解析結果を表示するというシンプルなものだったので、短めになりそうです。 撮影してすこし編集しました。解析結果がPDFとして入手できるのですが、生の数値データが入手でき…

GeneSigDB5、HumanBrainTranscriptome1

GeneSigDBを使って ある生命現象を特徴づける遺伝子セットを検索・比較する 統合TV(togotv)|生命科学系DB・ツール使い倒し系チャンネル できました。gene set と gene signature の使い分けがなんとなく理解できたことにしておきます。次はHBT - Human Brai…

GeneSigDB 4

編集が終わりました。が、動画のアップは来週になります。Camtasia8は動画とフキダシなどがシンクロしていなくていい面もあるのですが、ちょっと修正を入れたいと思って説明を挿入しようと思った場合、他の吹き出しを全選択して移動させなければいけないので…

GeneSigDB3

動画の編集中です。 6割くらい編集が完了しました。Camtasiaが新しくなったことに加えて、若干日本語訳しにくい言葉遣いのサイトなのですこし編集ペースが遅い気がします。 しかしEMBOSSのツール名のときにも思ったけど生命系のツールはなんか面白い言葉遣…

GeneSigDB2

http://compbio.dfci.harvard.edu/genesigdb/ ためしに動画を撮り始めました。GeneSigDBをが何の役に立つのかいまいちわかっていないのですが、主に疾患の論文に記載されているマイクロアレイなど実験結果の遺伝子セットが大量に登録されています。 複数の遺…

GeneMANIA完成、GeneSigDB1

GeneMANIAを使って遺伝子間ネットワークを検索する 統合TV(togotv)|生命科学系DB・ツール使い倒し系チャンネル 上げました。次はGeneつながりでGeneSigDBの動画を作ろうと思います。 これはGOやKEGGなど、個別の遺伝子に関するデータベースはあるものの、Ge…

GeneMANIA3

できました。 動画ファイルの出力までは終わったのですが、Tダイアリーを書く暇がなかったのでうpは来週にします。最近動画を作る手際が良くなってきたような気がします。