Bio Technical フォーラム

  • バイオ関連の実験をする上での、試薬、機器、プロトコールなどの情報交換の場です。
  • 新しいテーマで話を始める場合、質問をする場合は「新しいトピックを作る」から書き込みをしてください。
  • 質問に対して解答できる方は是非、書き込んで下さい。
  • このフォーラムにふさわしくないと管理人が判断した投稿は予告なく削除します。

トピック一覧 | 研究留学ネットに戻る

最新のフォーラム | このフォーラム | ひとつ前のフォーラム(readのみ)

このスレッドをはてなブックマークに追加このスレッドをはてなブックマークに追加

Clustering ソフト トピック削除
No.251-TOPIC - 2011/04/05 (火) 14:04:02 - 310
近いうち同一の領域にある50bp程度のDNA配列を数万-十万程度alignする予定があります。同一配列ごとグループ分けして頻度を求めたいと思っています。いままで少数の配列をWeb版Clustal-XやWindows版Clustal-Xで解析して一致配列を求めていましたが、とても上記の量はこれらではできそうもありません。

Clustal Omegaというソフトが今年4月に発表されるそうです。
http://www.clustal.org/
十万以上の配列をalignできるのですが、アミノ酸配列にしか対応していません。

長さが短い、大量の配列を比較する上で、商用、アカデミック問わず有用なソフトウエア又はTipsなどがあればお教えください。
 
- このトピックにメッセージを投稿する -



5件 ( 1 〜 5 )  前 | 次  1/ 1. /1


(無題) 削除/引用
No.251-5 - 2011/04/07 (木) 14:39:20 - 310
ンンノ 様

以下文献から引用です。多数のシーケンスを処理するときは、同一シーケンスでファイルをいったん作ってから行うと言う意味だと思ってますが正しいでしょうか?
>For a large number of sequences, ClustalXeed
>converts input sequences into individual
>sequence pairs and stores the pairs using the naming
>rule/tmp/xxxxx000P, where P = the pair sequence number
>and the generation number of the file name is
>always +1.

大学でバイオインフォマティクスを行っている講座の人に問い合わせたところ、これはないけど似たようなことはできるよといわれました。(ただし有償)。ボスは他大学の人に問い合わせ中なので、その返事を待って先に進むことにします。

ありがとうございました。

(無題) 削除/引用
No.251-4 - 2011/04/06 (水) 17:04:57 - ンンノ
全部のデータを同時に一回で計算させないといけないのでしょうか。
Clustalベースのアルゴリズムだと一回の計算で正解に至る可能性も低いです
し、ブートストラッピングなんてやろうと思うと途方もないことになりそうです。

100リードくらいの小さいセットで予備解析して、出現頻度の多そうな配列から
全体データに対して順番にテキスト検索して出現数を数えていけば、小さく出
来るような気がします。

自己組織化なんかの方法が実行可能なプログラムになっていれば、それでもい
いかもしれませんね。

(無題) 削除/引用
No.251-3 - 2011/04/06 (水) 06:10:32 - 310
ンンノ 様
Bio-perlの紹介サイト(日本語)
http://yebisu.ics.es.osaka-u.ac.jp/~takenaka/public/study/weblecture/bioperl-1/index.htm

を見てみました。勉強して、いじり方を覚えれば自由度は相当高そうです。いいものを教えていただきありがとうございました。

ClustalXeedというソフトがBioinformatics 2010, 11; 467に掲載されていました。こちらはDNAの配列も解析可能ですが、おっしゃるとおり、20万の配列解析をするのに100xCPUの並列コンピュータを用い10TBのRAID HDと8GBのメモリをメインノード、4GBのメモリと1TBのHDを各ノード用に使っています。多数の配列の解析時にはディスクもデータの展開に使えるようで、物理メモリは思っていたより少ないような気がします。

最後に大型計算機に触ったのが”1GBのメモリで家が建つ”と言われたころで、記憶も定かではありませんが、このソフトを動かそうと思っています。 

まずは、うちの大学でこのようなシステムが使えるか調べてみます。

(無題) 削除/引用
No.251-2 - 2011/04/05 (火) 15:24:54 - ンンノ
クラスタリングだと総当りで相手を探していくので計算量が大変な事になりませんか。

十万の階乗が何桁の数字になるか知りませんが途方も無い桁数になって、とても
そこら辺の計算機に処理できる計算量ではないように思います。
データセットを小さく丸め込んでやらないと処理できないんでないでしょうか。

私自身ではやってないのでわかりませんが、Bio-Perlなんかにそういうスクリ
プトがないでしょうか。

Clustering ソフト 削除/引用
No.251-1 - 2011/04/05 (火) 14:04:02 - 310
近いうち同一の領域にある50bp程度のDNA配列を数万-十万程度alignする予定があります。同一配列ごとグループ分けして頻度を求めたいと思っています。いままで少数の配列をWeb版Clustal-XやWindows版Clustal-Xで解析して一致配列を求めていましたが、とても上記の量はこれらではできそうもありません。

Clustal Omegaというソフトが今年4月に発表されるそうです。
http://www.clustal.org/
十万以上の配列をalignできるのですが、アミノ酸配列にしか対応していません。

長さが短い、大量の配列を比較する上で、商用、アカデミック問わず有用なソフトウエア又はTipsなどがあればお教えください。

5件 ( 1 〜 5 )  前 | 次  1/ 1. /1


パスワードを入力してチェックした記事を チェックした記事を

このトピックにメッセージを投稿する
名前 
メール   アドレス非公開
   タイトル 
本文      
設定  クッキーを保存(次回の入力の手間を省けます)
上に上げない(トピックの一覧で一番上に移動させません)
解決(問題が解決した際にチェックしてください)
暗証  半角英数字8-12文字の暗証番号を入れると、あとで削除、修正ができます。
送信 

〔使い方〕
  • 「アドレス非公開」をチェックすれば、自分のメールアドレスを公開しないで他の方からメールを受け取れます。
  • 問題が解決した際には、解決ボタンをチェックして解決した旨のコメントをつけてください。これは、初めにトピックを作った人と管理人のみが可能です。
  • 半角カタカナ、機種依存文字(全角ローマ数字、○の中の数字等)は文字化けの原因となりますので使わないでください。