Bio Technical フォーラム

  • バイオ関連の実験をする上での、試薬、機器、プロトコールなどの情報交換の場です。
  • 新しいテーマで話を始める場合、質問をする場合は「新しいトピックを作る」から書き込みをしてください。
  • 質問に対して解答できる方は是非、書き込んで下さい。
  • このフォーラムにふさわしくないと管理人が判断した投稿は予告なく削除します。

新しいトピックを作る | トピック一覧 | 研究留学ネットに戻る

ひとつ前のフォーラム(readのみ)

このスレッドをはてなブックマークに追加このスレッドをはてなブックマークに追加

stringtieの出力ファイル(gene nameが付加されない) トピック削除
No.8728-TOPIC - 2020/03/21 (土) 01:13:14 - usagi
いつも質問させていただいております。

RNA-Seqの解析についてですが
Hisat2でマッピングしたsamファイルをsamtoolsでbamにした後、stringtieで発現量を計算しております。
現在、stringtieの出力したファイルにgene nameが付かずに困っております。

コマンドは
stringtie サンプル名.sort.bam -o 出力ファイル名.gtf -G 参照するgtfファイル.gtf -A 出力ファイル名.tab

gene nameが付加されないのは参照するgtfファイルのせいでしょうか。
(参照するgtfファイルを変えれば解決するのでしょうか。)

gtfファイルはUCSCからダウンロードしたもの、GENECODEからダウンロードしたもの両方試してみましたがどちらともgene nameが付加されませんでした。
使用しているサンプルはヒトです。

ご存知の方がいらっしゃいましたら知恵をお貸しいただけますと幸いです。
よろしくお願い致します。
 
- このトピックにメッセージを投稿する -



5件 ( 1 〜 5 )  前 | 次  1/ 1. /1


(無題) 削除/引用
No.8728-6 - 2020/03/25 (水) 12:33:46 - passerby
以前似たような経験をしました。
gtfからgff3に変えたりしてもだめだったことがあり、hisat2のインデックスファイルを作り直してマッピングし直したところうまく行ったことがありました。また、hisat2に使用したリファレンスゲノムとgtfの出どころが一緒でないとうまく行かないと思います。

(無題) 削除/引用
No.8728-5 - 2020/03/24 (火) 22:12:51 - BlueComma
usagiさん

お力になれず残念です・・・
ところで、エラーは出ていませんでしたか?何かしらの異常があればエラーが表示されると思うのですが。。。

(無題) 削除/引用
No.8728-4 - 2020/03/23 (月) 21:59:17 - usagi
BlueCommaさん

丁寧にご回答頂きありがとうございます。
これまでの解析に関する問題ではなく、参照ファイルの問題の可能性が高いとのことで安心しました。
参照ファイルをgff3に変えてみましたが遺伝子名が付加されませんでした。
参照ファイルをいろいろ変換して試してみようと思います。

取り急ぎお礼を申し上げたく書き込みを致しました。
丁寧にアドバイスをいただきまして誠にありがとうございます。

(無題) 削除/引用
No.8728-2 - 2020/03/22 (日) 22:19:28 - BlueComma
当方RNA-seqの専門ではありませんが、同じようなことで奮闘した経験がありましたのでコメントさせて頂きます。

GTFファイルの問題かと思います。GTFファイルの最後の列はアノテーションが記載されているのですが、ここの表記、「gene_id "遺伝子名"」と「ID=遺伝子名」の二通りあるようです(厳密には後者はGFF3形式?)。どうやらstringtieでは前者の表記では遺伝子名を取得してくれないようです。GTFではなく、GFF3形式のファイルを用いると解決するかもしれません。

お役に立てれば幸いです。

参考:GTF・GFF形式について(Ensemble)
https://asia.ensembl.org/info/website/upload/gff.html

stringtieの出力ファイル(gene nameが付加されない) 削除/引用
No.8728-1 - 2020/03/21 (土) 01:13:14 - usagi
いつも質問させていただいております。

RNA-Seqの解析についてですが
Hisat2でマッピングしたsamファイルをsamtoolsでbamにした後、stringtieで発現量を計算しております。
現在、stringtieの出力したファイルにgene nameが付かずに困っております。

コマンドは
stringtie サンプル名.sort.bam -o 出力ファイル名.gtf -G 参照するgtfファイル.gtf -A 出力ファイル名.tab

gene nameが付加されないのは参照するgtfファイルのせいでしょうか。
(参照するgtfファイルを変えれば解決するのでしょうか。)

gtfファイルはUCSCからダウンロードしたもの、GENECODEからダウンロードしたもの両方試してみましたがどちらともgene nameが付加されませんでした。
使用しているサンプルはヒトです。

ご存知の方がいらっしゃいましたら知恵をお貸しいただけますと幸いです。
よろしくお願い致します。

5件 ( 1 〜 5 )  前 | 次  1/ 1. /1


パスワードを入力してチェックした記事を チェックした記事を

このトピックにメッセージを投稿する
名前 
メール   アドレス非公開
   タイトル 
本文      
設定  クッキーを保存(次回の入力の手間を省けます)
上に上げない(トピックの一覧で一番上に移動させません)
解決(問題が解決した際にチェックしてください)
暗証  半角英数字8-12文字の暗証番号を入れると、あとで削除、修正ができます。
送信 

〔使い方〕
  • 「アドレス非公開」をチェックすれば、自分のメールアドレスを公開しないで他の方からメールを受け取れます。
  • 問題が解決した際には、解決ボタンをチェックして解決した旨のコメントをつけてください。これは、初めにトピックを作った人と管理人のみが可能です。
  • 半角カタカナ、機種依存文字(全角ローマ数字、○の中の数字等)は文字化けの原因となりますので使わないでください。