Home

mesoの実験ノート

日本分子生物学会年回でポスター発表

パシフィコ横浜で開催された 第34回日本分子生物学会年回 でポスター発表をしました。発表は学会2日目の12月14日(水)でした。

今回の分生ではポスターを英語で作成するように指定されていたのですが、タイトルと名前の部分を英語と日本語の併記にしたほかは全て日本語。参加者のほとんどが日本人なので、歩きながらポスターを見ている人が足を止めてくれるように、ということを重視して日本語主体にしました。

ポスターをA4サイズに縮小したものを置いておいたら途中で売り切れてしまった。もっとたくさん刷ってくればよかったです。

ポスターのPDFと要旨を下記に掲載します。内容は統合の日シンポジウムでの発表と同じです。

GGRNA: fast and convenient universal search engine for genes and transcripts (2P-0113)

ABSTRACT: GGRNA (http://GGRNA.dbcls.jp/) is a powerful full-text search engine for transcripts archived in NCBI Reference Sequence (RefSeq) database. With one simple input field, GGRNA quickly searches RefSeq transcripts by various words and phrases including gene names, annotations, accession numbers, and even nucleotide sequences and amino acid sequences. In a search result, transcripts are grouped by gene locus if several transcript variants derived from alternative splicing are included in the result. GGRNA can search nucleotide sequences allowing one or two mismatches, and the query sequences may contain ambiguous nucleotides (N, R, Y, etc.). A typical nucleotide sequence search takes just one second, which dramatically enhances the usability of searching. Furthermore, we incorporated multiple databases such as Gene Ontology (GO) annotations, microarray probes and Reference Expression dataset (RefEx) into GGRNA by mapping their contents onto RefSeq transcripts and provided through a simple interface that can help users to easily find and browse relevant genes. For example, searches can be refined by adding GO terms to the queries; Microarray probe IDs are automatically converted into probe sequences and subjected as nucleotide sequence searches; An expression levels and patterns of each gene can be browsed using RefEx. We are planning to incorporate additional databases including PubMed, PDB, SNPs for further development. GGRNA currently searches RefSeq transcripts from human, mouse, rat, chicken, frog, zebrafish, fruit fly, worm, thale cress, rice, budding east and fission yeast. The web server should provide a wide range of applications for both ‘wet’ and ‘dry’ biologists.

バイオハッカーソン、他

GGRNA論文化

このへんでGGRNAをpublishしたいと考えて論文を書いているところです。

GGRNA詳細検索ページ

GGRNAはどんなクエリでもひとつの窓に入れればよいという簡単さを大切にしています。検索条件を細かく指定したいときは、seq: とか symbol: のような タグ をつければよいのですが、少々煩雑なうえ覚えていないと面倒。そこでもっと簡単に詳細な検索ができるページを、別に用意しました。

これは、2つのPCRプライマー配列を手がかりに遺伝子を検索している例です。2番目の塩基配列は「相補鎖を検索」にチェックを付けています。検索ボタンを押すとNFKB1がヒットします。

ちなみに、それぞれの欄に検索のキーワードを入れると、ページの一番下にある緑色っぽい部分に、タグをつけた検索式を自動生成して表示してくれます。この検索式をGGRNAの検索窓に入れてもまったく同じ結果が出ます。

BH11.11参加、GGRNAのREST API開発

11/21〜23の期間、伊豆の修善寺で行われた統合データベース技術情報交換ワークショップ(国内版バイオハッカーソン BH11.11)に部分参加しました。バイオハッカーソンとはバイオ+ハック+マラソンの造語で、数日のあいだ山に籠もってハッキングする(集中的に開発する)合宿です。参加者どうしで協力し合って短期間にプログラムを書くという機会は、開発がはかどるし、何より楽しいです。5日間のうちの前半の3日間だけでしたが、参加してよかったです。

私はこのハッカーソンで、GGRNAのAPIを開発することにしました。GGRNAが提供している「遺伝子を探す」という機能は、センター内外の他のサービスと連携できるはずだからです(遺伝子名を入れてねフォームなど)。

API開発のための知識はほとんどありませんでしたが、そういえば以前にTwitterのAPIを利用してロボットを書いたなあ(下記参照)、などと思い出し、RESTとJSONについて TogoWS や Twitter API を参考に調べ始めました(1日目)。

参考資料 Perlでtwitterクライアントを書いてみた by めそ
自分のタイムライン取得.pl → https://gist.github.com/1153778
指定ユーザのツイート取得.pl → https://gist.github.com/1153781
ダイレクトメッセージ取得.pl → https://gist.github.com/1153782
指定ユーザのフォロワー一覧を取得.pl → https://gist.github.com/1213322
指定ユーザのフォロー一覧を取得.pl → https://gist.github.com/1213324

RESTとJSONの概要や、Perl向けの素敵モジュールを @yayamamo さんから教えていただいて開発が一気に加速(2日目)。何とか動くものを完成させました(3日目の午前中)。仕様がまだ固まっていないので正式公開とは言えないのですが、プレビューとしてはこんな感じで動いています。

GGRNA REST APIの仕様(暫定

http://GGRNA.dbcls.jp/api/species/query+string[.format]

species → hs, mm, dm, … (GGRNAが対応している生物種の学名の頭文字)
query+string → GGRNA検索窓に入れる単語。特殊文字はURLエンコードすること。
format → txt または json 。省略時は txt になる。

TogoWSに準拠させています。TogoWSの解説動画はこちら → 統合TV
ウェブで検索した結果と同じ情報が出力されます。

検索例:

論文投稿までには仕様を固め、ドキュメントも整備して公開できればと思っています。

JSONViewプラグイン

2011/12/19追加。JSONをとても見やすく表示してくれるJSONViewというプラグインがあります。下のスクリーンショットを参照。

トーゴーの日シンポジウム2011

10月5日(水) に日本科学未来館で開催された「トーゴー(統合)の日シンポジウム2011」でGGRNAの紹介をしました。

ポスター会場ではiPadを使ってGGRNAのデモをしましたが、やはり検索が速いという感想を多くいただけました。また、疾患関連のキーワードで遺伝子を検索したいという要望や、SNP、タンパクのモチーフを見たいという要望を頂いており、これらはGGRNAに取り入れていく方針です。(疾患関係は翌日の某ユーザ会でも話題になりました。)

ポスターのPDFと要旨を下記に掲載します。

ポスターPDF (1.7MB)

「統合遺伝子検索GGRNA」(ポスター番号 13)

内藤雄樹,坊農秀雅(情報・システム研究機構 ライフサイエンス統合データベースセンター)

要旨:さまざまな切り口で遺伝子を「さがす」または「ながめる」ことができるように,塩基配列,発現情報,立体構造,文献等さまざまな知識をRNA配列(転写産物)をベースに整理した「RNA統合データベース」を構築している.その一環として,RefSeqに収録された遺伝子を簡便かつ高速に検索できるウェブサービスGGRNA(http://GGRNA.dbcls.jp/)を構築したので紹介する.GGRNAは,単一の検索窓しかないシンプルなインターフェースから,RefSeqに収録された転写産物の各種ID,遺伝子名,アノテーション情報,塩基配列およびアミノ酸配列を含む全フィールドを対象に全文検索をおこなうシステムである.とくに塩基配列の検索では,Nなどの曖昧な塩基を含むパターンや,クエリに対して2塩基までのミスマッチを含む配列を高速に検索する.またマイクロアレイのプローブIDを入力すると,そのプローブの塩基配列をもとに遺伝子を検索することもできる.現在,ヒト,マウス,ラット,ニワトリ,ツメガエル,ゼブラフィッシュ,カタユウレイボヤ,ショウジョウバエ,線虫,イネ,シロイヌナズナ,出芽酵母,分裂酵母に対応している.

GGRNAの「統合検索」始動

外部コンテンツと連携して「統合検索」

今回、GGRNAを公開してから最大のアップデートをおこないました。

GGRNAのトップページをよく見ると「統合遺伝子検索」と銘打っているわけですが、今までのGGRNAは「RefSeqの全文検索」以上のものではありませんでした。では、「統合・・・」とはどういうことなのか。mesoが目指しているのは、様々なコンテンツを(ゲノムではなく)転写産物に紐付けて「さがす」&「ながめる」ことができる仕組みです。

今回のアップデートでは、GGRNA内部でデータを保持する方法を書きかえ、RefSeq以外のコンテンツを転写産物に紐付けて扱えるようにしています。手始めにGene Ontologyによるアノテーション情報と、酵素EC番号の情報とを、それぞれNCBI Entrez Geneから抽出してRefSeqのtranscriptに統合、GGRNAで検索できるようにしました。

Gene Ontologyで検索

アポトーシス関連遺伝子を表すGene OntologyのID、GO:0006915 で検索(→ GGRNA検索)。

ヒットした転写産物をクリックします。各転写産物に紐付けられた情報を見ることができます。

GGRNAは、実はこのテキストを全文検索して GO:0006915 という部分を見つけているだけなので、[apoptosis] で検索してもOK(→ GGRNA検索)。上記の GO:0006915 で検索した場合と同じ件数がヒットします。括弧をつけずに apoptosis で検索すると、Gene Ontology情報以外のところに apoptosis という単語が含まれるものが全部ヒットしてしまうので4000件以上になります。

それでは困るという場合、「転写産物に紐付けされた外部コンテンツ」のみを対象に検索するには anot: タグannot:annotation: と書いてもよい)を使います(e.g. anot:GO:0006915 → GGRNA検索)。ただし、anot:apoptosis で検索した場合(→ GGRNA検索)は GO:0006915 [apoptosis] だけでなく、GO:0006916 [anti-apoptosis] とか GO:0042981 [regulation of apoptosis] もヒットします。

なお、スペースを含む場合はダブルクオートで囲みます(e.g. anot:“regulation of apoptosis” → GGRNA検索)。

酵素EC番号で検索

アルコールデヒドロゲナーゼ、EC 1.1.1.1 で検索(→ GGRNA検索)。anot: タグを使う場合はECの後にスペースがあるのでダブルクオートで囲み、anot:“EC 1.1.1.1” とします(→ GGRNA検索)。

EC 1.1.1.1 だけでなく、EC 1.1.1.146 や EC 1.1.1.145 がヒットしているのはご愛敬。何とかします。

なお、Gene Ontologyによるアノテーションや酵素EC番号以外にも、様々なコンテンツを今後統合していく予定です。10/5に行われたトーゴーの日シンポジウム2011ではGGRNAで疾患関連の情報やSNP、タンパクのモチーフなどを見たいという要望も頂いており、さっそく検討しています。

トップページURLを変更

トップページを http://GGRNA.dbcls.jp/ に変更し、このURLで本格運用することにしました。GGRNAの部分は小文字でも可。一般的にドメイン名は大文字小文字を区別しないルールになっています。なお、旧アドレスは新アドレスに転送されます。

RefSeq 49にアップデート、ホヤを追加

RefSeq Release 49 (Sep, 2011) にアップデートしました。同時に @wakuteka さんのリクエストでホヤCiona intestinalisを追加。ただし現時点では情報が充実していないようで、NM_* が901件に対して XM_* (predicted) が13041件でした。RefSeqのヘルプによると、RefSeq ID(アクセッション番号)の先頭が NM_ のものは「Transcript products; mature messenger RNA (mRNA) transcripts」で、XM_ のものが「Transcript products; model mRNA provided by a genome annotation process; sequence corresponds to the genomic contig」となっています。つまり XM_ のほうはRNAの分子としてまだ確認されていないもの、という言い方ができると思います。

塩基配列検索を強化

3ミスマッチまで許容して塩基配列を検索できる seq3: というタグを用意しました。相補鎖を3ミスマッチまで検索する comp3: 、両方の鎖を3ミスマッチまで検索する both3: も使えます。ただし短い配列を検索すると非常にたくさんの配列がヒットして時間がかかるので17塩基以上を推奨します。

ちなみに「caagaagagattgtg」という15塩基の配列を、完全一致検索、1ミスマッチ、2ミスマッチ、3ミスマッチまで検索、としていくとヒット件数は約10倍ずつ増えていきます。

  • 「caagaagagattgtg」で検索(→ GGRNA検索)….. 2件
  • seq1:caagaagagattgtg」で検索(→ GGRNA検索)….. 28件
  • seq2:caagaagagattgtg」で検索(→ GGRNA検索)….. 365件
  • seq3:caagaagagattgtg」で検索(→ GGRNA検索)….. 3522件

なお、GGRNAでは他にもいろいろな検索タグを用意しています。目的に応じて利用すれば効率的に検索できるでしょう。検索タグの一覧はヘルプのページにあります。

アミノ酸配列クイズ

細胞工学のバックナンバーをぱらぱらと読んでいたらこんな記事が。

問題 次のアミノ酸配列のうち、自然界に存在するタンパク質中にあるのはどれでしょうか?
※「自然界に存在する…..」の意味は、アミノ酸ポリマーを実験的に示したのではなく、遺伝子から翻訳された配列に見いだされるということ。

  1. AAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
  2. CCCCCCCCCCCCCCCCCCCCCCCCCCCCCC
  3. DDDDDDDDDDDDDDDDDDDDDDDDDDDDDD
  4. EEEEEEEEEEEEEEEEEEEEEEEEEEEEEE
  5. FFFFFFFFFFFFFFFFFFFFFFFFFFFFFF
  6. GGGGGGGGGGGGGGGGGGGGGGGGGGGGGG
  7. HHHHHHHHHHHHHHHHHHHHHHHHHHHHHH
  8. IIIIIIIIIIIIIIIIIIIIIIIIIIIIII
  9. KKKKKKKKKKKKKKKKKKKKKKKKKKKKKK
  10. LLLLLLLLLLLLLLLLLLLLLLLLLLLLLL
  11. MMMMMMMMMMMMMMMMMMMMMMMMMMMMMM
  12. NNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
  13. PPPPPPPPPPPPPPPPPPPPPPPPPPPPPP
  14. QQQQQQQQQQQQQQQQQQQQQQQQQQQQQQ
  15. RRRRRRRRRRRRRRRRRRRRRRRRRRRRRR
  16. SSSSSSSSSSSSSSSSSSSSSSSSSSSSSS
  17. TTTTTTTTTTTTTTTTTTTTTTTTTTTTTT
  18. VVVVVVVVVVVVVVVVVVVVVVVVVVVVVV
  19. WWWWWWWWWWWWWWWWWWWWWWWWWWWWWW
  20. YYYYYYYYYYYYYYYYYYYYYYYYYYYYYY

(大海 忍「第1回 せるてQuiz」細胞工学 Vol. 30, No. 7, pp.766 より引用)

さっそく全部の配列を検索窓に入れてGGRNAで検索(10秒くらいかかる)。GGRNAは複数のキーワードを入れた場合にAND検索をおこないますが、個々のキーワードごとにヒット件数を表示してくれます。

ヒトで検索した場合:

poly Qは予想していましたが、EとかSを30個繋げた配列もあるのですね。

こんどはショウジョウバエで検索してみます。E、Q、Tの×30がヒットしています。

細胞工学のサイトにこの問題の答えが掲載されています。

これによると、2011年4月1日の時点でNCBIのnrのなかにはC、M、Wを30個繋げた配列以外はすべて存在するとのこと。GGRNAで見つからなかったものをBLASTしてみると、なるほど、GGRNAが対応していない生物種にヒットしているようです。すごいな・・・

完全に遊びですが、「aa:GGRNA」とか「aa:GGRE」とか「aa:MERCI」とか試しにGGRNA検索すると配列が見つかります。BLASTでは時間がかかるので探す気がおきないのですが、GGRNAは1秒くらいで検索できるのでいろいろ遊んでしまいます。

GGRNA活用事例集(アミノ酸配列編)

GGRNAの活用事例を「塩基配列編」と「アミノ酸配列編」に分けて紹介しています。今回は「アミノ酸配列編」です。

Figureに出てくるアミノ酸配列を検索

塩基配列編」と同様、論文のfigureなどに登場するアミノ酸配列をすばやく探せます。

Schaefer et al. IV. Wilson’s disease and Menkes disease. Am. J. Physiol. Gastrointest. Liver Physiol. 276, G311-G314 (1999) より引用

上の図だと「aa:MTCQSC」(→GGRNAで検索)とか「aa:MHCKSC」(→GGRNAで検索)のようにアミノ酸配列の一部を入力すれば出てきます。なお、GGRNAでは大文字/小文字を区別しないので、「AA:mhcksc」などと入れても結果は同じです。

遺伝子を探すという目的だけでなく、配列がどこにあるのかを調べるのにも役立ちます。図に示されているアミノ酸配列を

aa:MTCQSC aa:MHCKSC aa:MTCASC aa:CPC aa:DKTGT aa:SEHPL aa:GDGVND」

のように全部入力して、その位置を調べることも簡単にできます。(→GGRNAで検索

caspaseによる切断部位の検索

caspaseはアポトーシス誘導に関与するシステインプロテアーゼの総称で、特定のペプチド配列を認識して切断します。GGRNAのアミノ酸配列検索を使えば、切れると予想される遺伝子と切断サイトがわかります。下記はcaspase-3とcaspase-8の例。なお、GGRNAでは大文字/小文字を区別しないので、「aa:DEVD」と入れても「AA:devd」と入れても結果は同じです。

アミノ酸配列のなかのIETDが緑色にハイライトされている下のところに、AA position 731 のようにヒットした位置が表示されています。ただしこの数字はcaspaseで切れる位置(D)ではなく、ヒットした場所の先頭(I)の位置です。

いちばん下の Data Export: というところから結果をタブ区切りテキストで保存し、他のソフトで利用することもできます。

小胞体局在化シグナルの検索

小胞体局在化シグナル「aa:KDEL」をもつタンパクをGGRNAで検索。今回はマウスです。

314件がヒットしています。ヒットした遺伝子が実際に小胞体に局在しているか調べてみましょう。検索結果のページの最下部にあるタブ区切りテキストをエクセルにコピペします。

次に、DAVID(http://david.abcc.ncifcrf.gov/)というサイトにアクセスします。DAVIDはユーザの遺伝子リストをアノテーション情報をもとに解析してくれるサイトです。

画面上部の「Start Analysis」タブをクリック。

先ほどのExcel画面からA列のRefSeq IDをコピーして、DAVIDのページの「Step 1: Enter Gene List」にある「A: Paste a list」の下にペーストします。「Step 2: Select Identifier」では「REFSEQ_MRNA」を選択します。「Step 3: List Type」は「Gene List」をチェックして、Submitします。

左側のGene List ManagerにMus musculus(286)と表示されています。読み込んだリストがマウスの遺伝子として処理されたようです。画面中央あたりのFunctional Annotation Chartに進みます。

「Gene Ontology」というところをクリックして展開します。中ほどの「GOTERM_CC_FAT」がGene OntologyのCellular Component、すなわち細胞内での局在による分類です。

GGRNAでヒットした遺伝子群は、確かに小胞体(endoplasmic reticulum)関連に局在している遺伝子がエンリッチされているようです。ちなみにヒトで同様の解析をすると、

  1. non-membrane-bounded organelle
  2. intracellular non-membrane-bounded organelle
  3. cytoskeleton
  4. endoplasmic reticulum lumen

の順番で、トップではないものの小胞体関連がやはり上位にランクされていることがわかります。

植物のペプチドホルモンの検索

植物のペプチドホルモンをシグナル配列から検索(@hkanekaneさんより)。

この短さだとBLASTは上手く使えないとのこと。4アミノ酸くらいまでの短い配列の検索はBLASTよりGGRNAのほうが圧倒的に得意です。ただし、あいまい検索はできません。将来はアミノ酸配列のあいまい検索もできるようにしたいです。

フィードバック募集中!

今後もGGRNAの活用事例(アミノ酸配列編)をこの記事に追記するかたちで増やしていく予定です。GGRNAは研究の現場(とくにウェットな現場)で役立つサイトにしていきたいので、ご意見やご要望をいただければありがたいです。このブログのコメント欄や、Twitter の @meso_cacase までよろしくお願いします。

GGRNA活用事例集(塩基配列編)

GGRNAの売りのひとつは塩基配列やアミノ酸配列を素早く検索できることです。今回の記事ではGGRNAの検索事例を「塩基配列編」「アミノ酸配列編」に分けて紹介します。まずは「塩基配列編」。

(8/9 追記)「アミノ酸配列編」も公開しました。

PCRのプライマー配列を検索

「論文のマテメソに記載のプライマーをそのまま利用してPCRをかけたい」とか、「過去に設計したプライマーの増幅領域がわからなくなったので確認したい」ということはありませんか。たとえばプライマー配列が

forward primer: CTAGCTGCCAAAGAAGGACAT
reverse primer: CAATGAGATGTTGTCGTGCTC

の場合、「CTAGCTGCCAAAGAAGGACAT  comp:CAATGAGATGTTGTCGTGCTC」で検索します(→GGRNAで検索)。reverse primerは逆向きに設計されているので、相補鎖検索のオプションである comp: タグをつけることがポイントです。

上の例では、NFκBの2つのtranscript variant(NM_001165412.1, NM_003998.3)がヒットしました。1件目(NM_001165412.1)から見ていくと、塩基配列が緑にハイライトされている場所のすぐ下に、position 2328 2547とあり、2つのプライマー配列がマッチしたそれぞれの場所の、先頭の塩基の位置を示しています。これを元にPCR産物のサイズを計算すると、2547 – 2328 + 21 = 240 (bp) となります。21はreverse primerの長さです。なお、positionの右に (CDS: 468 – 3374) とあるのはCDSの範囲を示しています。今回のプライマーがどちらもCDS内に設計されていることがわかります。

2件目(NM_003998.3)も同様にPCR産物のサイズを計算すると 2550 – 2331 + 21 = 240 (bp) となります。NFκBのもう1つのtranscript variantですが、1件目と同じ長さの断片が増幅すると考えられます。

プライマーがマッチしている場所を詳しく見てみましょう。1件目のタイトル部分、「Homo sapiens nuclear factor of kappa …」をクリックするとその転写産物の詳細が表示され、さきほど検索したプライマー配列がどこにマッチしているかわかります。

ちなみに、従来からあるサービスではUCSC In-Silico PCRが有名ですが、こちらで調べるとヒットするのは1件、PCR産物のサイズは692bpとなり、GGRNAと異なる結果になります。

この違いは、UCSCのサービスがゲノムを検索するのに対して、GGRNAは転写産物を検索していることによるものです。上記のNFκBのプライマーは452bpのイントロンを跨ぐようにデザインされたているため、ゲノムから増やすと 240 + 452 = 692 (bp) の長さになるというわけです。余談ですが、RT-PCRではこのようにイントロンを跨ぐように設計されたプライマーを用いると、ゲノムDNAがコンタミして増幅した場合にサイズの異なるバンドが出現するので容易に区別することができます。

Figureに出てくる塩基配列の断片を検索

論文のfigureなどに出てくる塩基配列をさっと探すのにも使えます。

Rajewsky et al. microRNA target predictions in animals. Nature Genetics 38, S8 – S13 (2006) より引用

左側のRNA鎖は、マウスmiR-375の標的サイト、myotrophinの3′ UTRの配列の一部です。GGRNAでMus musculus (mouse)を選択してとりあえず配列の一部「GUUGCAAGA」を検索してみます(→GGRNAで検索)。これでは322件もヒットするので、もうすこし伸ばして「GUUGCAAGAACAAA」で検索すると(→GGRNAで検索)、1件に絞り込めます。なお、GGRNAはUとTを同一視して塩基配列を検索します。

ヒットしている位置が3763でCDSの範囲が279 – 635なので、3′ UTRのかなり後ろのほうだとわかります。

ちなみに右側のmiR-375の配列も、「UUUGUUCGUUCGG」と13文字程度入力すれば出てきます(→GGRNAで検索)。

次の例。

Yekta et al. MicroRNA-directed cleavage of HOXB8 mRNA. Science 304, 594-596 (2004) より引用

ヒト、マウス、ラット等どれでもよいのですが、黒くなっている部分「CCAACAACAUGAAACUGCCUA」を検索すると(→GGRNAで検索)、HOXB8 (NM_024016.3) の position 1379 (CDS: 236 – 967) がヒットして、確かに3′ UTRにマッチしていることを確認できました。

なお、検索したい事例にあわせて、相補鎖を検索する comp: というタグや、両方の鎖を検索する both: 、1〜3塩基のミスマッチを許して検索する seq1:, seq2:, seq3: も適宜ご利用ください。

siRNAのオフターゲット遺伝子の検索

哺乳類細胞でRNAiをおこなう際には、長さが21塩基の短い2本鎖RNAである「siRNA」がよく利用されますが、siRNAの配列が標的以外の無関係な遺伝子と似ていると、誤ってそれらを抑制してしまう可能性があります(siRNAのオフターゲット効果)。mesoが東大在職時に公開したsiRNA設計サイト「siDirect」では、設計したsiRNAの配列(正確には、ガイド鎖の5’末端から数えて2〜20の位置の19-mer)を相同性検索にかけ、3ミスマッチ以内で相同な遺伝子のリストを表示する機能を提供しています。余談ですが、なぜ全長(1〜21)ではなく2〜20かというと、RNAiが起こる際にガイド鎖の5’末端の塩基はArgonauteタンパクのMidドメインのポケットに入っており、また3’末端の塩基はPAZドメインに結合しているため、それぞれ標的の認識に寄与しないと考えられるためです。なお、ミスマッチがどの程度あれば安全なのかはハッキリとは決まっていないのですが、1ミスマッチだとオフターゲット効果が起こる可能性が十分にあり、ミスマッチが多くなるほどそのリスクは減っていく傾向があります。一方、バイオインフォ的な解析からは、siRNAの本来の標的以外のすべての遺伝子に対して必ず3ミスマッチ以上を保証できるような配列は全体の10%程度設計できますが、4ミスマッチ以上を保証できる配列はほとんど設計できないことがわかっています。

ここでは、GGRNAを使って下記のsiRNAと相同性の高い遺伝子を探してみます。なお、このsiRNAはclaudin 17という遺伝子を標的に設計されたものです。

siRNAのガイド鎖 5′-UAGAACUUGCAUUGCAACCGG-3′ の両末端を除いた 5′-AGAACUUGCAUUGCAACCG-3′ とハイブリダイズする配列をさがしたいので、まずは「comp:AGAACUUGCAUUGCAACCG」を検索してみます(→GGRNAで検索)。

ヒットは1件、このsiRNAの本来の標的遺伝子であるclaudin 17 (CLDN17; NM_012131.2) が表示されています。続いてミスマッチを許して検索するオプションをつけて検索していきます。

  • 1ミスマッチ以内 →「comp1:AGAACUUGCAUUGCAACCG」(→GGRNAで検索
  • 2ミスマッチ以内 →「comp2:AGAACUUGCAUUGCAACCG」(→GGRNAで検索
  • 3ミスマッチ以内 →「comp3:AGAACUUGCAUUGCAACCG」(→GGRNAで検索

3ミスマッチまで含めてようやくclaudin 17以外に3件ヒットしました。なおsiDirectでは下記のような結果になりますが、一部結果が異なるのは塩基配列のデータベースが更新されたためです(GGRNAのほうが新しい)。siDirectではミスマッチの位置がわかりやすく表示されています。GGRNAでも将来ミスマッチ塩基を別の色で表示するようアップデートしたいと思っています。

さらに、siRNAのガイド鎖だけでなくパッセンジャー鎖によるオフターゲット効果も起こりうるので、パッセンジャー鎖側も同様に検索してみます。パッセンジャー鎖 5′-GGUUGCAAUGCAAGUUCUAUA-3′ の両末端を除いた 5′-GUUGCAAUGCAAGUUCUAU-3′ とハイブリダイズする配列をさがしたいので、

  • 完全一致 →「comp:GUUGCAAUGCAAGUUCUAU」(→GGRNAで検索)結果:0件
  • 1ミスマッチ以内 →「comp1:GUUGCAAUGCAAGUUCUAU」(→GGRNAで検索)結果:0件
  • 2ミスマッチ以内 →「comp2:GUUGCAAUGCAAGUUCUAU」(→GGRNAで検索)結果:0件
  • 3ミスマッチ以内 →「comp3:GUUGCAAUGCAAGUUCUAU」(→GGRNAで検索)結果:5件

こちらも3ミスマッチまで含めてようやく5件ヒットしました。

他の配列を検索してみるとわかるのですが、19-merの配列を3ミスマッチ以内で検索して数件しかヒットしないのはかなり少ないほうで、このsiRNAは塩基配列のうえでは特異性が高いといえそうです。

なお、今回検索を試みたようなsiRNAの全長と相同性の高い遺伝子ばかりでなく、「seed」と呼ばれる7-merの配列(ガイド鎖の2〜8の位置)のTmが高い場合には、seedと完全に相補的な配列を3′ UTRに持つ遺伝子もオフターゲット効果のリスクがあることがわかっています。詳細は下記の論文や統合TVによるsiDirectの解説を参照してほしいのですが、オフターゲット効果が少ないsiRNAを設計するためには、まずseedのTmが低いものを選ぶことが重要と考えられます。

  • siDirect 2.0の論文:Naito et al. siDirect 2.0: updated software for designing functional siRNA with reduced seed-dependent off-target effect. BMC Bioinformatics 10, 392 (2009) → full text
  • 統合TV:siDirectでsiRNAを設計する2011

マイクロアレイのプローブIDを利用して配列検索

2011/6/2の記事「マイクロアレイのプローブIDから塩基配列検索」で紹介したように、マイクロアレイのプローブIDを入力すると、そのプローブの塩基配列をつかって遺伝子を検索してくれます。プローブがハイブリダイズする場所をハッキリ特定してくれます。

とくにAffymetrix社のアレイは25-merのperfect match(PM)プローブ11本で1つのtranscriptを認識するようになっていて、これらをまとめてprobesetと呼びます。なお、下図のようにこの11本と同じ位置にmismatch(MM)プローブが用意されていてバックグラウンドとして使えますが、最近はMMプローブの値は使わない傾向にあるようです。

GGRNAでは「1552311_a_at」のようにprobeset IDを入力すると(→GGRNAで検索)、サーバ側でプローブID→塩基配列に展開し、

「GCATGGGATGGGACAGTCTGGGCCA」+
「AGAAGTGCGGCACCAGGGCAGGAGC」+
「GGCAGGAGCTGCAGTAGCTACCCTC」+
「AGATCACTCCCAGATCACCAGGTCA」+
「AGGTCACCCCATCTCTAGGCGGCAC」+
「AATGTCACCGCACACCAGGCAGTGG」+
「GGGACACGGCAGTAAGCACAAGAAA」+
「ACGGCAGTAAGCACAAGAAAGATTT」+
「TCTCCACAAACGTTTTTAAAATGTG」+
「AAAATGTGCCGGGTGTACTGGTGCA」+
「ATGTGCCGGGTGTACTGGTGCACAC」

で検索を実行します。

RAX2 (NM_032753) という遺伝子がヒットしています。1件目のタイトル部分をクリックすると、

のように、3′末端付近に11本のオリゴの標的サイトがあることがわかります。ヒットした文字列が重なった場合は緑色が濃く表示されています。

一方、Agilent社のアレイは基本的には60-merのオリゴ1本で1つのtranscriptを認識するようにできていて、たとえば「A_23_P101434」で検索すると下記のように表示されます(→GGRNAで検索)。

マイクロアレイのプローブIDによる遺伝子検索については、下記の記事もどうぞ。

RNA結合タンパクの結合モチーフ検索

2011/8/5追加。RNA結合タンパクが認識するあいまいなモチーフを、N, R, Yなどのあいまい塩基(IUBコード)を使って検索してみます。たとえばPUMの結合サイトUGUANAUAをもつmRNAを検索するときは、「iub:UGUANAUA」で検索(→GGRNAで検索;10秒くらいかかる)。

9,720件もヒットします。他のキーワードで絞り込むのもよし、ページ下部のタブ区切りテキストを利用して他のソフトで解析するもよし。詳しくは下記の記事もどうぞ。

フィードバック募集中!

今後もGGRNAの活用事例をこの記事に追記するかたちで増やしていく予定です。GGRNAは研究の現場(とくにウェットな現場)で役立つサイトにしていきたいので、ご意見やご要望をいただければありがたいです。

Twitter: @meso_cacase

Nを含む塩基配列の検索、DB追加+アップデート

Nを含む塩基配列の検索

GGRNAで塩基配列を検索する場合、今まで seq1:seq2: のタグでそれぞれ1塩基または2塩基以内のミスマッチを許容する検索ができましたが、AGGTCANNNTGACCT のようにあいまいな塩基を含む検索には対応していませんでした。今回のアップデートでは、iub:AGGTCANNNTGACCT(→GGRNAで検索)とすることで、あいまいな塩基(IUBコード)を含む配列を検索できるようにしました。狙いは、RNA結合タンパクが認識するあいまいなモチーフを検索したり(例:PUM結合サイト iub:UGUANAUA →GGRNAで検索;10秒くらいかかる)、GGRNAのエンジンをゲノム検索に応用して転写因子結合サイトなどを探すことを想定しています。(そのためには、もっとタンパクが核酸とくっつく気持ちで配列検索できるようなプログラムを書きたい・・・)

(参考:IUBコード表)

CodeBaseComment
RA, GpuRines
YC, TpYrimidines
MA, CaMino
KG, TKeto
SC, GStrong
WA, TWeak
HA, C, Tnot G
BC, G, Tnot A
VA, C, Gnot T
DA, G, Tnot C
NA, C, G, TaNy

N等のあいまいな塩基が多くなるほどヒット件数が爆発的に増えて検索に時間がかかります。そこで今回のアップデートでは、一つのキーワードがヒットするRefSeq IDの件数が10,000を越える場合、そのキーワードは「絞り込みに寄与しない」と見なして無視するようにしました。具体的に説明すると、たとえば iub:GGTCANT では15,000件以上のRefSeq IDがヒットします。また ACCESSION で検索すると、(RefSeqのデータには必ずACCESSIONという文字列が含まれているので)今までは全件がヒットしていました(泣)。今後は、このようなキーワードを単独で検索すると “Too many hits.” として何も表示せず、またAND検索ではそのキーワードを含めずに検索した結果を返すことにしました。

iub:GGTCANT で検索 → “Too many hits.”)

(ACCESSION で検索 → “Too many hits.”)

(claudin  iub:GGTCANT  aa:PEST で検索 → claudin  aa:PEST で検索した場合と同じ結果)

ツメガエル、イネの追加

Twitterなどで要望をいただいたツメガエルXenopus (Silurana) tropicalisとイネOrysa sativaを追加。ただし中身を眺めてみると、ツメガエルはRefSeq IDがXM_,XR_で始まる “PREDICTED: ~” な遺伝子のほうが多いし(23,899件中15,110件)、イネは遺伝子名がついておらずsymbolがすべてOs02g0617400のような名前になっています。今後のRefSeqのアップデートに期待したいです。

RefSeqアップデート

Release 48 (Jul, 2011) にアップデートしました。RefSeqは2ヶ月に1回のペースでリリースされるので、更新の作業もだいぶ自動化しました。余談ですが、データをダウンロードするのにlftpのpgetを利用すると、1つのファイルを分割して各パートを並列ダウンロードするのでかなり速くなります。

lftp -c "mirror -i rna.gbff --parallel=3 --use-pget-n=3 \
     ftp://ftp.ncbi.nlm.nih.gov/refseq/release/complete RefSeq_DL/"
  • 「mirror」はディレクトリをまるごとミラーするlftpのコマンド。
  • 「-i rna.gbff」はファイル名に rna.gbff を含むものだけをダウンロード。
  • 「–parallel=3」は3ファイルを並列ダウンロード。
  • 「–use-pget-n=3」は1つのファイルを3分割して並列ダウンロード。

マイクロアレイのプローブ情報を追加

ツメガエルとイネのデータを追加したことに伴い、以下のアレイのプローブ情報を追加しました。

メーカー生物種マイクロアレイの種類GPL ID
AffymetrixツメガエルXenopus laevis Genome ArrayGPL1318
AffymetrixツメガエルXenopus laevis Genome 2.0 ArrayGPL10756
AffymetrixツメガエルXenopus tropicalis Genome Array
AffymetrixイネRice Genome Array
AgilentツメガエルX. laevis (Frog) Oligo Microarray v2 (023448)
AgilentツメガエルXenopus laevis (Frog) Oligo Microarray (013665)
AgilentツメガエルXenopus Gene Expression Microarray (015066)GPL11258
AgilentイネO. sativa (Rice) Oligo Microarray 4x44K (015058)
AgilentイネRice Gene Expression Microarray (015241)GPL6864,GPL8852
AgilentイネRice Microarray (012106)GPL892,GPL7268

今後の方針もろもろ

昨日、@h_ono さんの出身ラボの方々からGGRNAについてフィードバックを頂きました。インターフェースで改善すべき点からGGRNA自体の位置付けまで、ウェットな現場からの辛口な、しかしどれも納得のご指摘でした。やはり現場で「使える」ものでなければ作る意味がないわけで、あくまで生物学を解くことが開発の目的であるということを忘れないようにしたい。それを踏まえ、GGRNAが生命科学研究にどう使えるのかを、NCBIのサイトではできないことを中心に次回紹介したいと思います。

統合データベース講習会 AJACS本郷9

統合データベース講習会AJACS本郷9で「RefSeqの検索とRefEx(Reference Expression dataset)」という話をしました。「遺伝子をさがす」をテーマに、mesoが開発中のGGRNAと、センターで提供しているRefExの紹介をしました。

(8/1 追記)統合TVに講習会の動画がアップされました!

前職のときに一般参加者として出たこともあった講習会で、講師として話すことになるとは感慨深いです。デモに手間取ったりして肝心の後半部分が駆け足になってしまうなど不慣れな点もありましたが、話す機会をいただけたことに感謝します。

講習会で使用したスライドをここにアップしておきます。上記のAJACS本郷9 講習会ページとあわせて参照ください。

GGRNA英語版の公開&ヒット位置の表示

GGRNA英語版の公開

英語版のページもつくりました。英語がおかしなところを見つけたらご指摘いただければありがたいです。

そろそろヘルプのページも用意しないと。誰か統合TVで紹介してくれないかな(笑

配列がヒットした位置を表示

GGRNAの売りは配列をさくさく検索できること。今回のアップデートでは、塩基配列またはアミノ酸配列がヒットした場合に位置を表示する機能をつけました。塩基配列の場合は参考としてCDSの範囲を表示することによって、ヒットした配列がCDS内かUTRかを簡単に判断できるようにしました。

応用:miRNAとseedマッチする遺伝子の探索

ヒットした位置を表示する機能はけっこう使えると思います(自画自賛)。ここでは応用例として、ヒトのmiRNAであるlet-7bの ‘seed’ と相補的な配列を3′ UTRにもつtranscriptのリストを作成してみます。このリストの一部にlet-7bの標的が含まれていると考えられます。

ヒトのlet-7b:5′-UGAGGUAGUAGGUUGUGUGGUU-3’(miRBaseより)

赤字で示した、5’末端から数えて2-8の位置のGAGGUAGがこのmiRNAのseedと呼ばれる部位です。miRNAはまずこの部分で相手を認識すると考えられており、miRNAの標的となるmRNAの多くはその3′ UTRに「seedと相補的な配列」をもっています。ここで留意しておきたいのは、

  • seedの対合はperfect matchでなければならない。
    RNA同士の塩基対形成なのですが、G:Uはダメです。
  • 3′ UTRにseed matchするものすべてが標的となるわけではない。
    実際に検索してみるとわかりますが、7塩基のexact matchだと数千個のtranscriptがヒットします。ですが、このすべてがmiRNAによって抑制されるわけではありません。ものすごくおおざっぱに言うと、マイルドに抑制されるものがこのうち数十個、きっちり抑制されるものは数個以下、というイメージではないかと思います。

それでは実際に検索してみましょう。GAGGUAGと塩基対形成するmRNAの配列はCUACCUC、ただしRefSeqのデータはmRNAといいながらも[ATGC]で表記されているので、CTACCTCを検索します。結果は7734件。ヒット件数が多いので結果が表示されるまで数秒かかります。(検索自体は2秒以内に終わるのですが、HTML生成とブラウザでの表示に時間がかかっているようです。ここは工夫できそう。)

このなかには、今回探している3′ UTRにマッチしているもの以外に、5′ UTRやCDSにマッチしているものも含まれています。そこで今回の新機能、ヒット位置の情報をもとに3′ UTRにマッチしているものだけをエクセルで抜き出します。なお、grepとかawkとかperlとかRとかを使いこなせる人は、そっとエクセルを閉じてください。

検索結果のページの最下部にあるタブ区切りテキストをエクセルにコピペします。

E列のpositionの情報とCDSの位置を使います。3′ UTRにヒットしているもの、つまり(ヒット位置)>(CDSの終わりの位置)の行だけを取り出したいので、編集メニューの置換機能を利用してこの2つの数値を抜き出します。なお複数ヒットしているものは最後の(一番大きい)数値だけを判定すれば十分です。

ヒット位置の最後の数値を取り出すには、position….のセルに対して、

  1. ” (CDS*” を空白で置換(1文字目のスペースに注意)
  2. “* ” を空白で置換(*の後のスペースに注意)

CDSの終わりの位置を取り出すには、同様にposition….のセルに対して、

  1. “)*” を空白で置換
  2. “* “を空白で置換(*の後のスペースに注意)

でOKですね。

取り出した2つの数値の大小をH列にて比較。

並べ替えを利用してTRUEとなっている行を抽出すると2414行。目的のリストが得られました。

なお、この作業でつかれてしまった人は、awkやperlで同じことが3行くらいで書けるのでそちらをおすすめします。

cat  ggrna_result.txt  |  perl  -ne  '$_ =~ /(\d+) \(CDS: \d+ - (\d+)\)/ and $1 > $2 and print'

うそです1行で書けました。結果をwcするとエクセルで抽出した場合と同様に2414行になっています。

Home

Search
Feeds
Meta

Return to page top