Bio Technical フォーラム

  • バイオ関連の実験をする上での、試薬、機器、プロトコールなどの情報交換の場です。
  • 新しいテーマで話を始める場合、質問をする場合は「新しいトピックを作る」から書き込みをしてください。
  • 質問に対して解答できる方は是非、書き込んで下さい。
  • このフォーラムにふさわしくないと管理人が判断した投稿は予告なく削除します。

新しいトピックを作る | トピック一覧 | 研究留学ネットに戻る

ひとつ前のフォーラム(readのみ)

このスレッドをはてなブックマークに追加このスレッドをはてなブックマークに追加

分類群を一括検索する方法 トピック削除
No.896-TOPIC - 2012/09/04 (火) 18:02:22 - ばいお
はじめて利用させて頂きます。ばいおと申します。
表題の通りのことを知りたいです。

具体的には、エクセルファイル(テキスト)で、
gi|xxxxxxxxxx|ref|xx_XXXXXXXX.X|_種名
gi|xxxxxxxxxx|ref|xx_XXXXXXXX.X|_種名
gi|xxxxxxxxxx|ref|xx_XXXXXXXX.X|_種名
gi|xxxxxxxxxx|ref|xx_XXXXXXXX.X|_種名
gi|xxxxxxxxxx|ref|xx_XXXXXXXX.X|_種名
gi|xxxxxxxxxx|ref|xx_XXXXXXXX.X|_種名

といった具合に1500前後のNCBIからの配列データの名前部分が列挙してあります(配列部分と名前は分割しました)。
これらがどのような分類群(鋼から種まで)に属するのかを一つずつ手作業で調べるのは大変ですし、今後の解析でウン十万とこのようなデータが増えるであろうことが分かっております。
なので、いちいちコピペで検索をかけて調べるのは、現実的ではないと考えております。

一度は、スクリプトを作成し、自動でアクセスして結果を返すようなことをしようかとも思ったのですが、以前、某大学がスクリプトを使ってNCBIにアクセスしてアクセス禁止を食らったことを思い出し、断念いたしました。

知恵をお借りしたく思います。
 
- このトピックにメッセージを投稿する -



4件 ( 1 〜 4 )  前 | 次  1/ 1. /1


(無題) 解決済み 削除/引用
No.896-4 - 2012/09/04 (火) 20:40:45 - ばいお
toyoさん、橘さん、ご指導ありがとうございました。
お二人の仰る通りのことを、まず思いつくべきだったと反省しており、赤面の思いです。

お時間をとらせて申し訳ありませんでした。

(無題) 削除/引用
No.896-3 - 2012/09/04 (火) 20:34:55 - 橘
NCBI Taxonomyデータベースを使えばできます。
データベースをダンプしたファイルが
ftp://ftp.ncbi.nih.gov/pub/taxonomy/
にありますので、ローカルのデータベースエンジンに取り込んでPerlやRubyで適当に処理をすれば大したことはありません。

必要なのは、gi_taxid_*.dmp.gzとtaxdump.tar.gzのnames.dmpとnodes.dmpです。
gi_taxid_*.dmp.gzにはGenBank ID (GI)とTaxonomy IDとの対応表が入っています。
nodes.dmpはTaxonomyの階層構造が入っています。
names.dmpにはTaxonomy IDに対するscientific nameなどが入っています。

処理としては、GIからTaxonomy IDを得て、Taxonomy IDの階層構造を上に辿って、上層のTaxonomy IDを集めた上で、それぞれのTaxonomy IDに対応するscientific nameを集めるという手順になります。
BLASTデータベースがきちんと作られたものなら、gi_taxid_*.dmp.gzを使わなくてもblastdbcmdかfastacmdでTaxonomy IDは得られますので、そちらを使ってもいいでしょう。

(無題) 削除/引用
No.896-2 - 2012/09/04 (火) 20:17:56 - toyo
分類群(鋼から種まで)毎にNCBIにアクセスするスクリプトを書くのではなくて、分類群(鋼から種まで)のデータをローカルにダウンロードした上で、Excelで扱える形に変換して、テーブルルックアップでもしたらいいのではないでしょうか?

分類群を一括検索する方法 削除/引用
No.896-1 - 2012/09/04 (火) 18:02:22 - ばいお
はじめて利用させて頂きます。ばいおと申します。
表題の通りのことを知りたいです。

具体的には、エクセルファイル(テキスト)で、
gi|xxxxxxxxxx|ref|xx_XXXXXXXX.X|_種名
gi|xxxxxxxxxx|ref|xx_XXXXXXXX.X|_種名
gi|xxxxxxxxxx|ref|xx_XXXXXXXX.X|_種名
gi|xxxxxxxxxx|ref|xx_XXXXXXXX.X|_種名
gi|xxxxxxxxxx|ref|xx_XXXXXXXX.X|_種名
gi|xxxxxxxxxx|ref|xx_XXXXXXXX.X|_種名

といった具合に1500前後のNCBIからの配列データの名前部分が列挙してあります(配列部分と名前は分割しました)。
これらがどのような分類群(鋼から種まで)に属するのかを一つずつ手作業で調べるのは大変ですし、今後の解析でウン十万とこのようなデータが増えるであろうことが分かっております。
なので、いちいちコピペで検索をかけて調べるのは、現実的ではないと考えております。

一度は、スクリプトを作成し、自動でアクセスして結果を返すようなことをしようかとも思ったのですが、以前、某大学がスクリプトを使ってNCBIにアクセスしてアクセス禁止を食らったことを思い出し、断念いたしました。

知恵をお借りしたく思います。

4件 ( 1 〜 4 )  前 | 次  1/ 1. /1


パスワードを入力してチェックした記事を チェックした記事を

このトピックにメッセージを投稿する
名前 
メール   アドレス非公開
   タイトル 
本文      
設定  クッキーを保存(次回の入力の手間を省けます)
上に上げない(トピックの一覧で一番上に移動させません)
解決(問題が解決した際にチェックしてください)
暗証  半角英数字8-12文字の暗証番号を入れると、あとで削除、修正ができます。
送信 

〔使い方〕
  • 「アドレス非公開」をチェックすれば、自分のメールアドレスを公開しないで他の方からメールを受け取れます。
  • 問題が解決した際には、解決ボタンをチェックして解決した旨のコメントをつけてください。これは、初めにトピックを作った人と管理人のみが可能です。
  • 半角カタカナ、機種依存文字(全角ローマ数字、○の中の数字等)は文字化けの原因となりますので使わないでください。