Home > Archives > 2011-06

2011-06

統合遺伝子検索GGRNA

mesoが構築している「遺伝子をGoogleのように(?)検索できるサイト」の名前を「GGRNA」にしてみました。表向きはルライクなRNA検索エンジンでGGRNA。しかし裏では “ググるな” と呼んでいたりします。

これに伴いURLも変更しました。今までのURLも生きていますが、今後はこちらをお使いください。

  • 統合遺伝子検索GGRNA — http://bit.ly/GGRNA → http://GGRNA.dbcls.jp/ (8/18更新:URLを変更)

下記は定例会議で報告した資料の一部。研究総括からは「Googleに怒られないか?」というご指摘が(爆 もし怒られたら変えます。。。

資料の2枚目は今後の方針について。GGRNAは遺伝子を「さがす」仕組みを実装したもの。それと同じくらい大切なのが、ヒットした遺伝子を「ながめる」仕組み。短い配列や立体構造、文献などのさまざまな知識をRNAのうえに整理して見せたいのですが、その見せ方の部分を工夫したいと思っており、ある程度形になったらここでご紹介します。

siDirectで大量のsiRNAを設計する

mesoが東大生化で開発していたsiRNA設計サーバ・siDirectを使って大量にsiRNAを設計したいというリクエストをいただいた。siDirectは、RNAi活性が高く(つまり良く効く)、標的以外の遺伝子が意図せず抑制される「オフターゲット効果」が少ないsiRNAを効率よく設計できるウェブサーバである。

実はそういう要望は以前からときどき頂いていたので、この機会にsiDirectのウェブをcrawlするスクリプトを書いてみた。

つかいかた:

%  ./siDirect2crawl.pl  sequence.txt

sequence.txtは、FASTAファイルもしくは塩基配列だけを格納したテキストファイル。ATGCU以外の文字は無視(削除)される。大文字小文字は区別しないが、結果のtarget sequenceの欄は入力ファイルの大文字小文字が反映される。WWW::Mechanizeというモジュールを使用しているので、あらかじめCPANからインストールする必要がある。

結果の例:

[siDirect v.2.0 | 2011-06-20 18:07:26]
target position target sequence RNA oligo, guide passenger functional siRNA selection seed-duplex stabilty (Tm), guide passenger min. number of mismatches against off-targets, guide passenger
24-46 cagaagaatggtacaaatccaag UGGAUUUGUACCAUUCUUCUG GAAGAAUGGUACAAAUCCAAG U 20.1 12.0 2 2
159-181 cccttaaaggaaccaatgagtcc ACUCAUUGGUUCCUUUAAGGG CUUAAAGGAACCAAUGAGUCC U 18.1 11.0 2 2
261-283 aggatgagattcagaatatgaag UCAUAUUCUGAAUCUCAUCCU GAUGAGAUUCAGAAUAUGAAG U 8.7 20.4 2 3
461-483 ctggttgatacccactcaaaaag UUUUGAGUGGGUAUCAACCAG GGUUGAUACCCACUCAAAAAG U 19.2 16.1 3 2
462-484 tggttgatacccactcaaaaagg UUUUUGAGUGGGUAUCAACCA GUUGAUACCCACUCAAAAAGG U 12.2 16.1 3 2
491-513 ctgattaagacggttgaaactag AGUUUCAACCGUCUUAAUCAG GAUUAAGACGGUUGAAACUAG U 14.9 6.9 3 3
519-541 gacaggttatcaacgaaacttct AAGUUUCGUUGAUAACCUGUC CAGGUUAUCAACGAAACUUCU U 19.7 18.5 3 3
521-543 caggttatcaacgaaacttctca AGAAGUUUCGUUGAUAACCUG GGUUAUCAACGAAACUUCUCA U 13.3 16.1 2 3

このようにsiDirectのweb版でテーブルとして表示される部分が、タブ区切りテキストで得られる。

siRNAを設計する際のオプションは、スクリプト内の %param で与えることができる。詳細は下の図およびコードを参照。

大量にクエリを投げる場合の例。サーバに負荷が掛からないよう、sleepコマンドをはさんでほしい。

% ls
input_sequences/     siDirect2crawl.pl*     siDirect_result/
% cd  input_sequences/
% ls
NM_000014.fa     NM_000015.fa     NM_000016.fa   […]
% foreach  n  ( * )
foreach> ../siDirect2crawl.pl  $n  >  ../siDirect_result/$n.siRNA
foreach> sleep  5
foreach> end
[…]
% cd  ../siDirect_result/
% ls
NM_000014.fa.siRNA     NM_000015.fa.siRNA     NM_000016.fa.siRNA   […]

RefExとの連携&データ出力機能を追加

RefExとの連携

マイクロアレイのプローブIDから配列をつかって遺伝子を検索できるようにしたので、RefExからリンクを張っていただきました。RefExはDBCLSで提供している発現量のリファレンスデータセット。これで相互リンクが実現。同じ部屋の方の仕事とリンクできていい感じです。

データ出力機能

検索結果を外部のソフトで利用しやすいように、タブ区切りテキストで出力できるようにしました。

「タブ区切りテキスト。エクセルとかに直接コピペできます。エクセルはお嫌いですか?→ Numbersへ

窓の中身を選択して、たとえばExcelに直接コピー&ペーストすれば

うまい具合にセルに入ります。 もちろんNumbersでもうまくいきますよ!!

アレイのプローブ配列検索を強化

マイクロアレイのプローブIDから塩基配列検索の機能を強化しました。

「便利そう」なサービスを実際に「使える」サービスにするためには、地味な作り込みが不可欠なんですよね・・・。先週紹介したプローブ配列検索も、ヒトとマウスで合計4つのプラットフォームだけでは頼りない。そこで今回は、AffymetrixとAgilentのマイクロアレイのうち、GEOにサンプル登録が多いプラットフォームと、まだサンプル登録は少ないけれども最新のプラットフォームを、とにかく全部収録することに。

収録したプラットフォーム一覧

メーカー生物種マイクロアレイの種類GPL ID
AffymetrixヒトHuman Genome U219 ArrayGPL13667
AffymetrixヒトHuman Genome U133 Plus 2.0 ArrayGPL570
AffymetrixマウスMouse Genome 430 2.0 ArrayGPL1261
AffymetrixラットRat Genome 230 2.0 ArrayGPL1355
AffymetrixラットRat Genome U34 Set (U34A/B/C)GPL85,GPL86,GPL87
AffymetrixニワトリChicken Genome ArrayGPL3213
AffymetrixゼブラフィッシュZebrafish Genome ArrayGPL1319
AffymetrixショウジョウバエDrosophila Genome 2.0 ArrayGPL1322
AffymetrixショウジョウバエDrosophila Genome ArrayGPL72
Affymetrix線虫C. elegans Genome ArraGPL200
AffymetrixシロイヌナズナArabidopsis ATH1 Genome ArrayGPL198
Affymetrix出芽酵母+分裂酵母Yeast Genome 2.0 ArrayGPL2529
Affymetrix出芽酵母Yeast Genome S98 ArrayGPL90
AgilentヒトSurePrint G3 Human Exon 2x400K Microarray (028680)
AgilentヒトSurePrint G3 Human Exon 4x180K Microarray (028679)
AgilentヒトSurePrint G3 Human GE 8x60K Microarray (028004)GPL13607
AgilentヒトWhole Human Genome Microarray 4x44K v2 (026652)GPL10332,GPL13497
AgilentヒトWhole Human Genome Microarray 4x44K (014850)GPL4133,GPL6480,GPL9822
AgilentマウスSurePrint G3 Mouse Exon 2x400K Microarray (028727)
AgilentマウスSurePrint G3 Mouse Exon 4x180K Microarray (030493)
AgilentマウスSurePrint G3 Mouse GE 8x60K Microarray (028005)GPL10787
AgilentマウスWhole Mouse Genome Microarray 4x44K v2 (026655)GPL10333,GPL11202
AgilentマウスWhole Mouse Genome Microarray 4x44K (014868)GPL4134,GPL7202
AgilentラットSurePrint G3 Rat Exon 2x400K (028728)
AgilentラットSurePrint G3 Rat Exon 4x180K (028744)
AgilentラットSurePrint G3 Rat GE 8x60K Microarray (028279)
AgilentラットWhole Rat Genome Microarray 4x44K v3 (028282)
AgilentラットWhole Rat Genome Microarray 4x44K (014879)GPL4135,GPL7294
AgilentニワトリG. gallus (Chicken) Oligo Microarray v2 (026441)
AgilentニワトリChicken Gene Expression Microarray (015068)GPL8764
AgilentゼブラフィッシュD. rerio (Zebrafish) Oligo Microarray V3 (026437)
AgilentゼブラフィッシュD. rerio (Zebrafish) Oligo Microarray (013223)GPL2878,GPL7244
AgilentゼブラフィッシュZebrafish (v2) Gene Expression Microarray (019161)GPL6457,GPL7301
AgilentゼブラフィッシュZebrafish Gene Expression Microarray (015064)GPL6563,GPL7302
AgilentショウジョウバエD. melanogaster (FruitFly) Oligo Microarray - V2 (021791)
AgilentショウジョウバエDrosophila Gene Expression Microarray (018972)GPL6385,GPL7300
Agilent線虫C. elegans Oligo Microarray (012795)GPL2875,GPL7272
Agilent線虫C. elegans (V2) Gene Expression Microarray (020186)GPL10094,GPL11346
Agilent線虫C. elegans Gene Expression Microarray (015061)GPL7727,GPL8209
AgilentシロイヌナズナArabidopsis 3 Oligo Microarray (012600)GPL2871,GPL7270
AgilentシロイヌナズナArabidopsis 2 Oligo Microarray (V2) (013324)GPL2880,GPL7290
AgilentシロイヌナズナArabidopsis 2 Oligo Microarray (011839)GPL888,GPL7265
AgilentシロイヌナズナArabidopsis (V4) Gene Expression Microarray (021169)GPL9020,GPL12621
AgilentシロイヌナズナArabidopsis (V3) Gene Expression Microarray (015059)GPL6177,GPL7299
Agilent出芽酵母Yeast microarray (011447)GPL884,GPL7259
Agilent出芽酵母Yeast Oligo Microarray (V2) (013384)GPL2883,GPL7293
Agilent出芽酵母Yeast (V2) Gene Expression Microarray (016322)GPL9825,GPL10045,GPL11488,GPL13340
Agilent出芽酵母Yeast (V1) Gene Expression Microarray (015072)GPL7542,GPL9294

プローブ検索、既知の問題点

プローブを検索しても結果が何も出てこない場合があります。たとえばヒトの 220281_at というプローブ。

Summary欄の表をみると、11個あるプローブのうち10個は NM_000338, NM_001184832 にマッチしているものの、GTTTTTCTGATGAATGGCTTGATTT というプローブは何もヒットしていません。したがってANDを取ると何も出てこないことになります。ところがこのプローブ、1ミスマッチを許して seq1:GTTTTTCTGATGAATGGCTTGATTT で検索してやると(リンク)、ちゃんと NM_000338, NM_001184832 がヒットするのです。Affymetrix社がプローブ設計時に使った配列が、RefSeqの最新の配列と1塩基違っていたのですね。

こういう事例を想定して、本当は11個の塩基配列を検索するときに最初からミスマッチを許して seq1: とか seq2: のモードで検索すればよいのでしょうが、計算時間がかかるのでどうすべきか・・・。

マイクロアレイのプローブIDから塩基配列検索

地味ですが新しい機能を追加しました。マイクロアレイのプローブIDを入力すると、そのプローブの塩基配列をつかって遺伝子を検索してくれる機能です。

たとえば下の例は、Affymetrix社のヒトのアレイ(GeneChip Human Genome U133 Plus 2.0 Array)のプローブである、1552311_a_at で検索したものです(リンク)。Affymetrixのアレイは25-merのオリゴ11本で1つのtranscriptを認識するようになっています。この11本をまとてprobesetと呼び、probesetごとに上記のようなIDが振られています。そこで、

「1552311_a_at」

と入力すると、サーバ側でプローブID→塩基配列に展開し、

「GCATGGGATGGGACAGTCTGGGCCA」+
「AGAAGTGCGGCACCAGGGCAGGAGC」+
「GGCAGGAGCTGCAGTAGCTACCCTC」+
「AGATCACTCCCAGATCACCAGGTCA」+
「AGGTCACCCCATCTCTAGGCGGCAC」+
「AATGTCACCGCACACCAGGCAGTGG」+
「GGGACACGGCAGTAAGCACAAGAAA」+
「ACGGCAGTAAGCACAAGAAAGATTT」+
「TCTCCACAAACGTTTTTAAAATGTG」+
「AAAATGTGCCGGGTGTACTGGTGCA」+
「ATGTGCCGGGTGTACTGGTGCACAC」

で検索を実行するようにしてみました。結果はこちら。

Result欄を見ると、RAX2 (NM_032753) という遺伝子がヒットしていることがわかります。遺伝子のリンクをクリックすると、

のように、3’末端付近に11本のオリゴの標的サイトがあることがわかります。余談ですが、検索でヒットした文字列が重なった場合は緑色が濃くなるように改良しました。今までのように単色だと、どこがどのように重なっているのか全然わからなかったので。

ところで皆さんはマイクロアレイのデータを解析するときに、プローブIDと遺伝子をどのように対応させているでしょうか。おそらく多くの方は、メーカーが出している対応表や、アレイ解析ソフトの結果をそのまま利用されていると思います。しかしこれは意外と信用できないとmesoは考えています。

少し前の話なのですが、Affymetrixのアノテーションでは 226437_at → VIM とあるのに、データがおかしいのでよく調べてみたら、実際にはまったく別の遺伝子であるYIF1Bに当たっていた、みたいな事例が頻繁にありました。

Affymetrixの表がちょっと軽くやばい感じだったので、Biomartを利用して対応表をつくることを試みたのですが、それもいまいち。例えば対応表のうえではACADVLに当たっているはずの3つのプローブが、よく調べてみると下の図のように3つのうち2つが隣の遺伝子(DVL2)に当たっていたり・・・。

上記の2つの事例に関しては、2011年6月現在は訂正されているものの、まだまだあやしい箇所が残っているのではないかと思います。だからこそ、ユーザ自身がプローブIDから塩基配列をつかって遺伝子(より正確にはtranscript)との対応を調べることは大事だと思うのです。現状ではそれを簡単にできる方法がなかったので、つくってみたというわけでした。今回は、

  • GeneChip Human Genome U133 Plus 2.0 Array (Affymetrix)
  • GeneChip Mouse Genome 430 2.0 Array (Affymetrix)
  • Whole Human Genome Microarray 4x44K v2 (Agilent)
  • Whole Mouse Genome Microarray 4x44K v2 (Agilent)

のデータを取り込んでおり、随時拡充していく予定です。

下記はAgilentのヒトのアレイ(Whole Human Genome Microarray 4x44K v2)から A_23_P101434 を検索した例(リンク)。Agilentのアレイは基本的には60-merのオリゴ1本で1つのtranscriptを認識するようにできている点がAffymetrixとの大きな違いです。mesoの経験的にはこちらのほうがバックが小さくなり、発現量が比較的少ない遺伝子まで綺麗にデータが出るようです。

Home > Archives > 2011-06

Search
Feeds
Meta

Return to page top