BioTechnicalフォーラム [分類群を一括検索する方法]

分類群を一括検索する方法

No.896-TOPIC - 2012/09/04 (火) 18:02:22 - ばいお

- このトピックにメッセージを投稿する -

全4件 ( 1 ～ 4 )　前 | 次　1/ 1. /1

(無題)

削除/引用

No.896-4 - 2012/09/04 (火) 20:40:45 - ばいお

toyoさん、橘さん、ご指導ありがとうございました。
お二人の仰る通りのことを、まず思いつくべきだったと反省しており、赤面の思いです。

お時間をとらせて申し訳ありませんでした。

(無題)

削除/引用

No.896-3 - 2012/09/04 (火) 20:34:55 - 橘

NCBI Taxonomyデータベースを使えばできます。
データベースをダンプしたファイルが
ftp://ftp.ncbi.nih.gov/pub/taxonomy/
にありますので、ローカルのデータベースエンジンに取り込んでPerlやRubyで適当に処理をすれば大したことはありません。

必要なのは、gi_taxid_*.dmp.gzとtaxdump.tar.gzのnames.dmpとnodes.dmpです。
gi_taxid_*.dmp.gzにはGenBank ID (GI)とTaxonomy IDとの対応表が入っています。
nodes.dmpはTaxonomyの階層構造が入っています。
names.dmpにはTaxonomy IDに対するscientific nameなどが入っています。

処理としては、GIからTaxonomy IDを得て、Taxonomy IDの階層構造を上に辿って、上層のTaxonomy IDを集めた上で、それぞれのTaxonomy IDに対応するscientific nameを集めるという手順になります。
BLASTデータベースがきちんと作られたものなら、gi_taxid_*.dmp.gzを使わなくてもblastdbcmdかfastacmdでTaxonomy IDは得られますので、そちらを使ってもいいでしょう。

(無題)

削除/引用

No.896-2 - 2012/09/04 (火) 20:17:56 - toyo

分類群（鋼から種まで）毎にNCBIにアクセスするスクリプトを書くのではなくて、分類群（鋼から種まで）のデータをローカルにダウンロードした上で、Excelで扱える形に変換して、テーブルルックアップでもしたらいいのではないでしょうか？

分類群を一括検索する方法

削除/引用

No.896-1 - 2012/09/04 (火) 18:02:22 - ばいお

全4件 ( 1 ～ 4 )　前 | 次　1/ 1. /1

パスワードを入力してチェックした記事を

チェックした記事を

〔使い方〕

「アドレス非公開」をチェックすれば、自分のメールアドレスを公開しないで他の方からメールを受け取れます。
問題が解決した際には、解決ボタンをチェックして解決した旨のコメントをつけてください。これは、初めにトピックを作った人と管理人のみが可能です。
半角カタカナ、機種依存文字(全角ローマ数字、○の中の数字等)は文字化けの原因となりますので使わないでください。