Home > Archives > 2011-08

2011-08

アミノ酸配列クイズ

細胞工学のバックナンバーをぱらぱらと読んでいたらこんな記事が。

問題 次のアミノ酸配列のうち、自然界に存在するタンパク質中にあるのはどれでしょうか?
※「自然界に存在する…..」の意味は、アミノ酸ポリマーを実験的に示したのではなく、遺伝子から翻訳された配列に見いだされるということ。

  1. AAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
  2. CCCCCCCCCCCCCCCCCCCCCCCCCCCCCC
  3. DDDDDDDDDDDDDDDDDDDDDDDDDDDDDD
  4. EEEEEEEEEEEEEEEEEEEEEEEEEEEEEE
  5. FFFFFFFFFFFFFFFFFFFFFFFFFFFFFF
  6. GGGGGGGGGGGGGGGGGGGGGGGGGGGGGG
  7. HHHHHHHHHHHHHHHHHHHHHHHHHHHHHH
  8. IIIIIIIIIIIIIIIIIIIIIIIIIIIIII
  9. KKKKKKKKKKKKKKKKKKKKKKKKKKKKKK
  10. LLLLLLLLLLLLLLLLLLLLLLLLLLLLLL
  11. MMMMMMMMMMMMMMMMMMMMMMMMMMMMMM
  12. NNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
  13. PPPPPPPPPPPPPPPPPPPPPPPPPPPPPP
  14. QQQQQQQQQQQQQQQQQQQQQQQQQQQQQQ
  15. RRRRRRRRRRRRRRRRRRRRRRRRRRRRRR
  16. SSSSSSSSSSSSSSSSSSSSSSSSSSSSSS
  17. TTTTTTTTTTTTTTTTTTTTTTTTTTTTTT
  18. VVVVVVVVVVVVVVVVVVVVVVVVVVVVVV
  19. WWWWWWWWWWWWWWWWWWWWWWWWWWWWWW
  20. YYYYYYYYYYYYYYYYYYYYYYYYYYYYYY

(大海 忍「第1回 せるてQuiz」細胞工学 Vol. 30, No. 7, pp.766 より引用)

さっそく全部の配列を検索窓に入れてGGRNAで検索(10秒くらいかかる)。GGRNAは複数のキーワードを入れた場合にAND検索をおこないますが、個々のキーワードごとにヒット件数を表示してくれます。

ヒトで検索した場合:

poly Qは予想していましたが、EとかSを30個繋げた配列もあるのですね。

こんどはショウジョウバエで検索してみます。E、Q、Tの×30がヒットしています。

細胞工学のサイトにこの問題の答えが掲載されています。

これによると、2011年4月1日の時点でNCBIのnrのなかにはC、M、Wを30個繋げた配列以外はすべて存在するとのこと。GGRNAで見つからなかったものをBLASTしてみると、なるほど、GGRNAが対応していない生物種にヒットしているようです。すごいな・・・

完全に遊びですが、「aa:GGRNA」とか「aa:GGRE」とか「aa:MERCI」とか試しにGGRNA検索すると配列が見つかります。BLASTでは時間がかかるので探す気がおきないのですが、GGRNAは1秒くらいで検索できるのでいろいろ遊んでしまいます。

GGRNA活用事例集(アミノ酸配列編)

GGRNAの活用事例を「塩基配列編」と「アミノ酸配列編」に分けて紹介しています。今回は「アミノ酸配列編」です。

Figureに出てくるアミノ酸配列を検索

塩基配列編」と同様、論文のfigureなどに登場するアミノ酸配列をすばやく探せます。

Schaefer et al. IV. Wilson’s disease and Menkes disease. Am. J. Physiol. Gastrointest. Liver Physiol. 276, G311-G314 (1999) より引用

上の図だと「aa:MTCQSC」(→GGRNAで検索)とか「aa:MHCKSC」(→GGRNAで検索)のようにアミノ酸配列の一部を入力すれば出てきます。なお、GGRNAでは大文字/小文字を区別しないので、「AA:mhcksc」などと入れても結果は同じです。

遺伝子を探すという目的だけでなく、配列がどこにあるのかを調べるのにも役立ちます。図に示されているアミノ酸配列を

aa:MTCQSC aa:MHCKSC aa:MTCASC aa:CPC aa:DKTGT aa:SEHPL aa:GDGVND」

のように全部入力して、その位置を調べることも簡単にできます。(→GGRNAで検索

caspaseによる切断部位の検索

caspaseはアポトーシス誘導に関与するシステインプロテアーゼの総称で、特定のペプチド配列を認識して切断します。GGRNAのアミノ酸配列検索を使えば、切れると予想される遺伝子と切断サイトがわかります。下記はcaspase-3とcaspase-8の例。なお、GGRNAでは大文字/小文字を区別しないので、「aa:DEVD」と入れても「AA:devd」と入れても結果は同じです。

アミノ酸配列のなかのIETDが緑色にハイライトされている下のところに、AA position 731 のようにヒットした位置が表示されています。ただしこの数字はcaspaseで切れる位置(D)ではなく、ヒットした場所の先頭(I)の位置です。

いちばん下の Data Export: というところから結果をタブ区切りテキストで保存し、他のソフトで利用することもできます。

小胞体局在化シグナルの検索

小胞体局在化シグナル「aa:KDEL」をもつタンパクをGGRNAで検索。今回はマウスです。

314件がヒットしています。ヒットした遺伝子が実際に小胞体に局在しているか調べてみましょう。検索結果のページの最下部にあるタブ区切りテキストをエクセルにコピペします。

次に、DAVID(http://david.abcc.ncifcrf.gov/)というサイトにアクセスします。DAVIDはユーザの遺伝子リストをアノテーション情報をもとに解析してくれるサイトです。

画面上部の「Start Analysis」タブをクリック。

先ほどのExcel画面からA列のRefSeq IDをコピーして、DAVIDのページの「Step 1: Enter Gene List」にある「A: Paste a list」の下にペーストします。「Step 2: Select Identifier」では「REFSEQ_MRNA」を選択します。「Step 3: List Type」は「Gene List」をチェックして、Submitします。

左側のGene List ManagerにMus musculus(286)と表示されています。読み込んだリストがマウスの遺伝子として処理されたようです。画面中央あたりのFunctional Annotation Chartに進みます。

「Gene Ontology」というところをクリックして展開します。中ほどの「GOTERM_CC_FAT」がGene OntologyのCellular Component、すなわち細胞内での局在による分類です。

GGRNAでヒットした遺伝子群は、確かに小胞体(endoplasmic reticulum)関連に局在している遺伝子がエンリッチされているようです。ちなみにヒトで同様の解析をすると、

  1. non-membrane-bounded organelle
  2. intracellular non-membrane-bounded organelle
  3. cytoskeleton
  4. endoplasmic reticulum lumen

の順番で、トップではないものの小胞体関連がやはり上位にランクされていることがわかります。

植物のペプチドホルモンの検索

植物のペプチドホルモンをシグナル配列から検索(@hkanekaneさんより)。

この短さだとBLASTは上手く使えないとのこと。4アミノ酸くらいまでの短い配列の検索はBLASTよりGGRNAのほうが圧倒的に得意です。ただし、あいまい検索はできません。将来はアミノ酸配列のあいまい検索もできるようにしたいです。

フィードバック募集中!

今後もGGRNAの活用事例(アミノ酸配列編)をこの記事に追記するかたちで増やしていく予定です。GGRNAは研究の現場(とくにウェットな現場)で役立つサイトにしていきたいので、ご意見やご要望をいただければありがたいです。このブログのコメント欄や、Twitter の @meso_cacase までよろしくお願いします。

GGRNA活用事例集(塩基配列編)

GGRNAの売りのひとつは塩基配列やアミノ酸配列を素早く検索できることです。今回の記事ではGGRNAの検索事例を「塩基配列編」「アミノ酸配列編」に分けて紹介します。まずは「塩基配列編」。

(8/9 追記)「アミノ酸配列編」も公開しました。

PCRのプライマー配列を検索

「論文のマテメソに記載のプライマーをそのまま利用してPCRをかけたい」とか、「過去に設計したプライマーの増幅領域がわからなくなったので確認したい」ということはありませんか。たとえばプライマー配列が

forward primer: CTAGCTGCCAAAGAAGGACAT
reverse primer: CAATGAGATGTTGTCGTGCTC

の場合、「CTAGCTGCCAAAGAAGGACAT  comp:CAATGAGATGTTGTCGTGCTC」で検索します(→GGRNAで検索)。reverse primerは逆向きに設計されているので、相補鎖検索のオプションである comp: タグをつけることがポイントです。

上の例では、NFκBの2つのtranscript variant(NM_001165412.1, NM_003998.3)がヒットしました。1件目(NM_001165412.1)から見ていくと、塩基配列が緑にハイライトされている場所のすぐ下に、position 2328 2547とあり、2つのプライマー配列がマッチしたそれぞれの場所の、先頭の塩基の位置を示しています。これを元にPCR産物のサイズを計算すると、2547 – 2328 + 21 = 240 (bp) となります。21はreverse primerの長さです。なお、positionの右に (CDS: 468 – 3374) とあるのはCDSの範囲を示しています。今回のプライマーがどちらもCDS内に設計されていることがわかります。

2件目(NM_003998.3)も同様にPCR産物のサイズを計算すると 2550 – 2331 + 21 = 240 (bp) となります。NFκBのもう1つのtranscript variantですが、1件目と同じ長さの断片が増幅すると考えられます。

プライマーがマッチしている場所を詳しく見てみましょう。1件目のタイトル部分、「Homo sapiens nuclear factor of kappa …」をクリックするとその転写産物の詳細が表示され、さきほど検索したプライマー配列がどこにマッチしているかわかります。

ちなみに、従来からあるサービスではUCSC In-Silico PCRが有名ですが、こちらで調べるとヒットするのは1件、PCR産物のサイズは692bpとなり、GGRNAと異なる結果になります。

この違いは、UCSCのサービスがゲノムを検索するのに対して、GGRNAは転写産物を検索していることによるものです。上記のNFκBのプライマーは452bpのイントロンを跨ぐようにデザインされたているため、ゲノムから増やすと 240 + 452 = 692 (bp) の長さになるというわけです。余談ですが、RT-PCRではこのようにイントロンを跨ぐように設計されたプライマーを用いると、ゲノムDNAがコンタミして増幅した場合にサイズの異なるバンドが出現するので容易に区別することができます。

Figureに出てくる塩基配列の断片を検索

論文のfigureなどに出てくる塩基配列をさっと探すのにも使えます。

Rajewsky et al. microRNA target predictions in animals. Nature Genetics 38, S8 – S13 (2006) より引用

左側のRNA鎖は、マウスmiR-375の標的サイト、myotrophinの3′ UTRの配列の一部です。GGRNAでMus musculus (mouse)を選択してとりあえず配列の一部「GUUGCAAGA」を検索してみます(→GGRNAで検索)。これでは322件もヒットするので、もうすこし伸ばして「GUUGCAAGAACAAA」で検索すると(→GGRNAで検索)、1件に絞り込めます。なお、GGRNAはUとTを同一視して塩基配列を検索します。

ヒットしている位置が3763でCDSの範囲が279 – 635なので、3′ UTRのかなり後ろのほうだとわかります。

ちなみに右側のmiR-375の配列も、「UUUGUUCGUUCGG」と13文字程度入力すれば出てきます(→GGRNAで検索)。

次の例。

Yekta et al. MicroRNA-directed cleavage of HOXB8 mRNA. Science 304, 594-596 (2004) より引用

ヒト、マウス、ラット等どれでもよいのですが、黒くなっている部分「CCAACAACAUGAAACUGCCUA」を検索すると(→GGRNAで検索)、HOXB8 (NM_024016.3) の position 1379 (CDS: 236 – 967) がヒットして、確かに3′ UTRにマッチしていることを確認できました。

なお、検索したい事例にあわせて、相補鎖を検索する comp: というタグや、両方の鎖を検索する both: 、1〜3塩基のミスマッチを許して検索する seq1:, seq2:, seq3: も適宜ご利用ください。

siRNAのオフターゲット遺伝子の検索

哺乳類細胞でRNAiをおこなう際には、長さが21塩基の短い2本鎖RNAである「siRNA」がよく利用されますが、siRNAの配列が標的以外の無関係な遺伝子と似ていると、誤ってそれらを抑制してしまう可能性があります(siRNAのオフターゲット効果)。mesoが東大在職時に公開したsiRNA設計サイト「siDirect」では、設計したsiRNAの配列(正確には、ガイド鎖の5’末端から数えて2〜20の位置の19-mer)を相同性検索にかけ、3ミスマッチ以内で相同な遺伝子のリストを表示する機能を提供しています。余談ですが、なぜ全長(1〜21)ではなく2〜20かというと、RNAiが起こる際にガイド鎖の5’末端の塩基はArgonauteタンパクのMidドメインのポケットに入っており、また3’末端の塩基はPAZドメインに結合しているため、それぞれ標的の認識に寄与しないと考えられるためです。なお、ミスマッチがどの程度あれば安全なのかはハッキリとは決まっていないのですが、1ミスマッチだとオフターゲット効果が起こる可能性が十分にあり、ミスマッチが多くなるほどそのリスクは減っていく傾向があります。一方、バイオインフォ的な解析からは、siRNAの本来の標的以外のすべての遺伝子に対して必ず3ミスマッチ以上を保証できるような配列は全体の10%程度設計できますが、4ミスマッチ以上を保証できる配列はほとんど設計できないことがわかっています。

ここでは、GGRNAを使って下記のsiRNAと相同性の高い遺伝子を探してみます。なお、このsiRNAはclaudin 17という遺伝子を標的に設計されたものです。

siRNAのガイド鎖 5′-UAGAACUUGCAUUGCAACCGG-3′ の両末端を除いた 5′-AGAACUUGCAUUGCAACCG-3′ とハイブリダイズする配列をさがしたいので、まずは「comp:AGAACUUGCAUUGCAACCG」を検索してみます(→GGRNAで検索)。

ヒットは1件、このsiRNAの本来の標的遺伝子であるclaudin 17 (CLDN17; NM_012131.2) が表示されています。続いてミスマッチを許して検索するオプションをつけて検索していきます。

  • 1ミスマッチ以内 →「comp1:AGAACUUGCAUUGCAACCG」(→GGRNAで検索
  • 2ミスマッチ以内 →「comp2:AGAACUUGCAUUGCAACCG」(→GGRNAで検索
  • 3ミスマッチ以内 →「comp3:AGAACUUGCAUUGCAACCG」(→GGRNAで検索

3ミスマッチまで含めてようやくclaudin 17以外に3件ヒットしました。なおsiDirectでは下記のような結果になりますが、一部結果が異なるのは塩基配列のデータベースが更新されたためです(GGRNAのほうが新しい)。siDirectではミスマッチの位置がわかりやすく表示されています。GGRNAでも将来ミスマッチ塩基を別の色で表示するようアップデートしたいと思っています。

さらに、siRNAのガイド鎖だけでなくパッセンジャー鎖によるオフターゲット効果も起こりうるので、パッセンジャー鎖側も同様に検索してみます。パッセンジャー鎖 5′-GGUUGCAAUGCAAGUUCUAUA-3′ の両末端を除いた 5′-GUUGCAAUGCAAGUUCUAU-3′ とハイブリダイズする配列をさがしたいので、

  • 完全一致 →「comp:GUUGCAAUGCAAGUUCUAU」(→GGRNAで検索)結果:0件
  • 1ミスマッチ以内 →「comp1:GUUGCAAUGCAAGUUCUAU」(→GGRNAで検索)結果:0件
  • 2ミスマッチ以内 →「comp2:GUUGCAAUGCAAGUUCUAU」(→GGRNAで検索)結果:0件
  • 3ミスマッチ以内 →「comp3:GUUGCAAUGCAAGUUCUAU」(→GGRNAで検索)結果:5件

こちらも3ミスマッチまで含めてようやく5件ヒットしました。

他の配列を検索してみるとわかるのですが、19-merの配列を3ミスマッチ以内で検索して数件しかヒットしないのはかなり少ないほうで、このsiRNAは塩基配列のうえでは特異性が高いといえそうです。

なお、今回検索を試みたようなsiRNAの全長と相同性の高い遺伝子ばかりでなく、「seed」と呼ばれる7-merの配列(ガイド鎖の2〜8の位置)のTmが高い場合には、seedと完全に相補的な配列を3′ UTRに持つ遺伝子もオフターゲット効果のリスクがあることがわかっています。詳細は下記の論文や統合TVによるsiDirectの解説を参照してほしいのですが、オフターゲット効果が少ないsiRNAを設計するためには、まずseedのTmが低いものを選ぶことが重要と考えられます。

  • siDirect 2.0の論文:Naito et al. siDirect 2.0: updated software for designing functional siRNA with reduced seed-dependent off-target effect. BMC Bioinformatics 10, 392 (2009) → full text
  • 統合TV:siDirectでsiRNAを設計する2011

マイクロアレイのプローブIDを利用して配列検索

2011/6/2の記事「マイクロアレイのプローブIDから塩基配列検索」で紹介したように、マイクロアレイのプローブIDを入力すると、そのプローブの塩基配列をつかって遺伝子を検索してくれます。プローブがハイブリダイズする場所をハッキリ特定してくれます。

とくにAffymetrix社のアレイは25-merのperfect match(PM)プローブ11本で1つのtranscriptを認識するようになっていて、これらをまとめてprobesetと呼びます。なお、下図のようにこの11本と同じ位置にmismatch(MM)プローブが用意されていてバックグラウンドとして使えますが、最近はMMプローブの値は使わない傾向にあるようです。

GGRNAでは「1552311_a_at」のようにprobeset IDを入力すると(→GGRNAで検索)、サーバ側でプローブID→塩基配列に展開し、

「GCATGGGATGGGACAGTCTGGGCCA」+
「AGAAGTGCGGCACCAGGGCAGGAGC」+
「GGCAGGAGCTGCAGTAGCTACCCTC」+
「AGATCACTCCCAGATCACCAGGTCA」+
「AGGTCACCCCATCTCTAGGCGGCAC」+
「AATGTCACCGCACACCAGGCAGTGG」+
「GGGACACGGCAGTAAGCACAAGAAA」+
「ACGGCAGTAAGCACAAGAAAGATTT」+
「TCTCCACAAACGTTTTTAAAATGTG」+
「AAAATGTGCCGGGTGTACTGGTGCA」+
「ATGTGCCGGGTGTACTGGTGCACAC」

で検索を実行します。

RAX2 (NM_032753) という遺伝子がヒットしています。1件目のタイトル部分をクリックすると、

のように、3′末端付近に11本のオリゴの標的サイトがあることがわかります。ヒットした文字列が重なった場合は緑色が濃く表示されています。

一方、Agilent社のアレイは基本的には60-merのオリゴ1本で1つのtranscriptを認識するようにできていて、たとえば「A_23_P101434」で検索すると下記のように表示されます(→GGRNAで検索)。

マイクロアレイのプローブIDによる遺伝子検索については、下記の記事もどうぞ。

RNA結合タンパクの結合モチーフ検索

2011/8/5追加。RNA結合タンパクが認識するあいまいなモチーフを、N, R, Yなどのあいまい塩基(IUBコード)を使って検索してみます。たとえばPUMの結合サイトUGUANAUAをもつmRNAを検索するときは、「iub:UGUANAUA」で検索(→GGRNAで検索;10秒くらいかかる)。

9,720件もヒットします。他のキーワードで絞り込むのもよし、ページ下部のタブ区切りテキストを利用して他のソフトで解析するもよし。詳しくは下記の記事もどうぞ。

フィードバック募集中!

今後もGGRNAの活用事例をこの記事に追記するかたちで増やしていく予定です。GGRNAは研究の現場(とくにウェットな現場)で役立つサイトにしていきたいので、ご意見やご要望をいただければありがたいです。

Twitter: @meso_cacase

Home > Archives > 2011-08

Search
Feeds
Meta

Return to page top