Home > Archives > 2012-06

2012-06

マイクロアレイ学生実習

6/12-20の期間、東京大学理学部生物化学科・生物情報科学科3年生の学生実習を担当しました。テーマは「マイクロアレイを用いた網羅的遺伝子発現解析」。生物情報では、2009年にAgilent社のマイクロアレイ設備一式を学生実習のために導入しており、学科の共通機器として毎年の学生実習に使用しているほか、各ラボの研究にも活用されています。調達時にAffymetrixとAgilentの方に伺ったところ、学部の学生実習でマイクロアレイをやるところは聞いたことがないとのこと。実習のプロトコルも試行錯誤を重ね、今年で4年目になります。

miRNAによる標的遺伝子の抑制

実習では、ヒトのHeLa細胞にマイクロRNA (miRNA) を導入して24時間後に回収したものを各班に配布。miRNA導入による遺伝子発現の変動を、マイクロアレイで調べるのがねらいです。

miRNAは、5′末端から2-8の位置の ‘seed’ と呼ばれる領域をたよりにmRNAの3′ UTRと結合し、翻訳抑制やmRNAの分解を誘導することが知られています。

ヒトのlet-7b:5′-UGAGGUAGUAGGUUGUGUGGUU-3′ (miRBaseより。赤字部分がseed)

実習で使用したmiRNAとは異なりますが、たとえばヒトのmiRNAのひとつであるlet-7bの場合は、赤字で示した GAGGUAG がseedと呼ばれる領域です。これと相補的な CUACCUC という配列を3′ UTRにもつ (以下、seedマッチする と表現) mRNAは、let-7bの標的となりその発現が抑制される可能性があります。ただし、seedマッチするmRNAのすべてが標的となるわけではなく、またseedマッチ以外にもさまざまなfactorが標的の認識および抑制に寄与することがわかっています。miRNAの標的予測については、TargetScan、PicTar、miRandaなどさまざまなプログラムが開発されていますが、いずれもfalse positiveが多く、正確な予測は難しいのが現状です。

seedマッチする遺伝子の変動

実習では1日目に細胞からtotal RNAを抽出、2日目に逆転写とcRNA合成、3日目にアレイへのハイブリダイゼーション、4日目にアレイのスキャンをおこない、4〜6日目の3日間でデータの解析をしました。この3日間は情報基盤センターの演習室をお借りしました。

データの解析には、以下のソフトを利用しました。

  • Excel – マイクロアレイのデータ解析をブラックボックスにしないために、まずは生の数値にきちんと触れてもらいました。アレイ間の正規化をおこない各種プロットを作成。
  • GeneSpring GX – エクセルで全部やるのは苦行なので、一連のデータ解析は基本的にGeneSpring GXを使用。Agilent社より学生実習のための期間限定ライセンスを供与いただきました。
  • R – 今年はスムーズに進んだのでRによる解析も紹介。マイクロアレイデータ解析用のパッケージlimmaを利用し、コードの基本部分は講師が提供。

細胞に導入したmiRNAとseedマッチする遺伝子をリストアップして、それらの変動のようすをMAプロット上に可視化してみます。すると、seedマッチする遺伝子群 (青色) は、その他の遺伝子群 (水色) と比較して下側に分布しており、発現量が減少している傾向が確認できました。ただし減少というのはあくまで集団としての傾向で、個々の遺伝子に注目すると、seedマッチしていても変化がないか、増加しているような遺伝子もたくさんあります。

発現量が減少している傾向を、より定量的に評価してみます。seedマッチする遺伝子群 (上のMAプロットで青色)、その他の遺伝子群 (水色) のそれぞれについて、MAプロットの縦軸の値「発現量の変動」でソートしたときの累積度数を求め、プロットします。

その他の遺伝子群 (黒色の線) は、(0, 0.5) を通る対称的な曲線になりました。一方、seedマッチする遺伝子群 (青色の線) は、それよりも左方向にシフトしており、発現量が減少している傾向がはっきりわかります。もしまったく減少していなければ、黒い曲線と重なるはずです。このように、MAプロットでは減少がわかりにくい場合でも、累積度数曲線を作成すると評価しやすくなります。

miRNAのseedが修飾されると標的は変わるか?

今回の実習に使用したmiRNAは、seed領域のAがI (イノシン) に修飾されることが知られています。このときmiRNAの標的となる遺伝子群はどのように変化するのでしょうか。実習では、AをGに置換したmiRNA (G-type)、および、AをIに置換したmiRNA (I-type) についてもマイクロアレイをおこないました。

G-type を導入した細胞では、もともとのseedがマッチしていた遺伝子群は抑制されず、A → G に置換したseedがマッチする遺伝子群が抑制されるようになりました。seedが1塩基かわるだけで、標的となる遺伝子群が大きく変わってしまうことを実感できたのではないかと思います。

一方、I-type を導入した細胞では、やはりもともとのseedがマッチしていた遺伝子群は抑制されず、A → G 置換したseedがマッチする遺伝子群が少し抑制されていました。また、A → U 置換したseedがマッチする遺伝子群、A → C 置換したseedがマッチする遺伝子群は、どちらも抑制されていませんでした。

イノシンは複数種類の塩基 (C, A, U) と塩基対を形成できますが、実習の結果を考慮すると、seed領域の A → I 修飾は、A → G 置換に近い効果がありそうです。もちろんこれを一般的に示すには、今回の実習で使用した特定のmiRNAのアレイデータだけでは不十分ですし、レポーター実験などによる詳細な検討も必要でしょう。

もっとも、6日間の学生実習でここまで解析ができて発展性もありそうな結果が出たのはよかったのではないかと思います。

DDBJの塩基配列データベース

GGRNAにGenBank/EMBL/DDBJの塩基配列を全部入れようとしています。塩基配列は3極で毎日交換されており、各FTPサイトから同様のデータセットをダウンロードできるのですが、GenBankよりDDBJのサイトのほうがきっちり整理されていて、説明も丁寧なように見えます(例:DDBJ のデータ公開形式 (flat file) の説明 など日本語の解説も充実)。しかもファイルの転送が高速で、GenBankからダウンロードすると一晩かかるところが、DDBJからだと20分程度で約70GBの圧縮ファイルをダウンロードできます。

データベースは21のdivisionに別れています。簡単なスクリプトを書いて、DDBJ 88.0 (2011年12月) の リリースノート を下記のように集計してみました。展開後のファイルサイズはDDBJ 88.0全体で約500GBありますが、ほとんどのユーザにとっては、上から13個のHUM〜SYN (111GB) あるいはそれにESTを加えたもの (330GB) が検索できれば十分のような気がします。全部をGGRNAに入れると余計なヒットが増える上にスピードも遅くなり、結果として使いにくくなるかも。。。

しかし、まずは全部を入れてみて、使い勝手を評価しつつ良い方法を考えていこうと思います。

Division内容エントリ塩基ファイルサイズ(GB)
合計152,763,469134,956,109,049536,061,081,910499.2
HUMヒト549,3204,871,171,7908,108,485,7407.6
PRI霊長類 (ヒトを除く)100,8391,290,713,2071,884,393,2251.8
ROD齧歯類428,9284,415,260,7566,956,941,0306.5
MAM哺乳類 (ヒト,霊長類,齧歯類を除く)296,080827,310,5161,710,667,1221.6
VRT脊椎動物 (ヒト,霊長類,齧歯類,哺乳類を除く)901,0312,736,438,1705,651,416,0415.3
INV無脊椎動物1,705,9002,490,017,1147,325,302,7906.8
PLN植物・真菌類 など2,267,5065,552,139,56412,782,926,98211.9
BCTバクテリア766,1377,342,956,89517,261,515,94216.1
VRLウイルス1,097,1121,252,521,3024,502,279,6504.2
PHGバクテリオファージ6,36569,569,157169,429,2170.2
PAT特許出願に含まれる塩基配列データ23,134,64811,447,354,63041,298,319,16738.5
ENVPCR,DGGE,あるいは,その他の方法で直接,
分子を単離した環境上のサンプルに由来した配列
3,973,1752,662,200,44510,296,471,5789.6
SYNsynthetic constructs
人為的に構成された配列
121,592922,229,2491,633,026,0421.5
ESTexpressed sequence tags
short single pass の cDNA 配列
71,312,54139,638,590,086234,127,930,692218.0
TSAtranscriptome shotgun assemblies
再構成された (assembled) mRNA 配列
4,322,7052,821,816,09611,585,871,01810.8
GSSgenome survey sequences short single pass のゲノム配列32,874,01121,009,093,48396,812,686,53790.2
HTChigh throughput cDNA sequences
EST 以外の大規模 cDNA 配列プロジェクトに由来。
最終的に,生物種による division に移される場合がある。
535,729611,638,9332,441,930,8652.3
HTGhigh throughput genomic sequences
ゲノムプロジェクトに由来。
最終的に,生物種による division に移される。
145,89124,358,635,47632,097,295,00829.9
STSsequence tagged sites
Genome sequencing の tag となる配列。
chromosome, map, PCR_condition 等の情報が必要。
1,322,165635,972,1074,496,495,7984.2
UNA未注釈データ
最近は UNA division は使用していない。
290480,0731,381,5920.001
CONContig / Constructed
ゲノムプロジェクトのように個々に登録された一連の
配列データを結合し,1つのアクセッション番号を付与
した長大なデータ。塩基配列は記載されない。
6,901,504034,916,315,87432.5

※ 表はDDBJ 88.0の リリースノート を集計。Divisionの説明は「DDBJ のデータ公開形式 (flat file) の説明」を抜粋。

GGRNAの論文掲載+今後の計画

GGRNA論文掲載

GGRNAの論文が5/28付でNucleic Acids Research誌のオンライン版に掲載されました。毎年7/1に発行されるWeb Server Issueに収録されます。

Yuki Naito & Hidemasa Bono (2012)
GGRNA: an ultrafast, transcript-oriented search engine for genes and transcripts.
Nucleic Acids Res. (Web Server Issue) DOI:10.1093/nar/gks448

論文公表にあわせて、日本語の解説を「ライフサイエンス 新着論文レビュー」の番外編として公開しました。

統合遺伝子検索GGRNA:遺伝子をGoogleのように検索できるウェブサーバ.
内藤雄樹・坊農秀雅 (2012) ライフサイエンス 新着論文レビュー・DBCLSからの成果発信
印刷用PDF]

「ライフサイエンス 新着論文レビュー」はDBCLSが提供している日本語コンテンツのひとつで、最近公開された日本人を著者とする生命科学分野の論文を、著者自身がわかりやすく紹介・解説したものです。Nucleic Acids Researchは残念ながら新着論文レビューの掲載対象誌ではありませんが、DBCLSからの成果を広く発信するために、番外編として記事を執筆させてもらえることになりました。

まずは編集長の飯田さんに草稿を見ていただきました。するとその日のうちに校正が。これはすごい。とても読みやすくなりました。平仮名にする単語、句読点のつかい方、単語の順序などに気をつけるだけでも、かなり読みやすくなるようです。もちろんそれだけでなく、大幅に手を加えていただいた箇所もあります。

ビフォーとアフターを、difff《デュフフ》を使って表示してみると、文章が美しくなっている様子がわかります。

difff《デュフフ》は文書作成支援ツールとしてmesoが8年前にこっそり作ったプログラムです。誰でも使えるように4月に公開したところ、GIGAZINEで紹介されて話題に。たぶん @h_ono さんがつけてくれた名前が素敵だったからでしょう。デュフフ

さて、GGRNAの論文化にあたり、現状の問題点や今後やりたいことが見えてきたので、まとめてみたいと思います。

今後の課題と開発計画

ヒット数が多い場合の高速化

現在のGGRNAにはひとつ問題が残っています。ヒット件数が極端に多いと、圧縮suffix arrayの解凍がネックになりひじょうに時間がかかるのです。たとえば「cancer」「aaaa」を検索するとしばらく結果が返ってきません(しかもヒットが多すぎるため途中で検索が打ち切られます)。また「”translation initiation factor”」というフレーズをダブルクオートをつけずに検索すると、「translation」「initiation」「factor」を別々に検索して結果の共通部分をとるので、ひじょうに時間がかかるうえに意図した結果が返ってきません。これらの問題は、実際にGGRNAを使ってみると頻繁に起こるため、早急に何とかしたいところです。

GGRNAでは内部のエンジンとしてPFIのSedue FlexとMySQLを組み合わせて検索を実行していますが、これらをSSDベースの新しいSedueに置き換えることを計画しています。新しいSedueはsuffix arrayのインデックスを圧縮せずSSDに載せる方式で、大量にヒットした場合でもインデックスの解凍が不要なためかなりの高速化が期待できます。予備的な検討では、前述のようなクエリを含めほとんどが2, 3秒以内に検索できています。ただしエンジンを載せ替えるためにはGGRNAのコードのかなりの部分を書き換えなければなりません。ちょっと時間がかかりそうです。

RefSeq全種+国際塩基配列DB対応

内部のエンジンをSSDベースの新しいSedueに置き換えることによって、データベースの大きさの制約が大幅に緩和されます。現在512GBのSSDは4万円程度まで価格が下がっており (→ 価格.com)、これに50〜100GBのデータベースが載ります。サーバ用のSSDが割高であることを考慮しても、数百GB程度のデータベースであればGGRNAに載せることが十分に可能です。

現在のGGRNAは、RefSeqのうち13種のモデル生物に対応していますが、今年度中にRefSeqの全生物種+GenBank/EMBL/DDBJ国際塩基配列データベース(INSDC)に登録されたゲノム以外の配列全体を取り込んでしまおうと計画しています。データベースの大きさは、現在のGGRNAの約100倍になる見込みです。

参考:

  • RefSeq mRNA 13生物種.gz:0.7GB(解凍後約4GB)
  • RefSeq mRNA全体.gz:4.0GB(解凍後約20GB)
  • INSDCゲノム以外.gz:64.4GB(解凍後約350GB)

また、INSDCを構成する機関のひとつであるDDBJは、DBCLSと同じ情報・システム研究機構の組織ですので、DDBJと有機的に連携しながら開発を進めていければと考えています。

結果のランキングなど

RefSeq+INSDC全体をGGRNAに入れただけでは、おそらく検索ノイズが増えて使いにくくなってしまうと思われます。本当に使いやすいサービスにするためには、ユーザが求める情報に短時間で到達できるように検索結果の見せ方を工夫する必要があります。具体的には、ランキングを改良することと、結果を後から絞り込めるようにファセット検索を実装することを計画しています。

GGRNAのオープンソース化

論文投稿時にある方からGGRNAのオープンソース化を検討してはどうかと提案をいただきました。これは是非やってみたいです。エンジンは商用のプログラムを利用しているので、公開できるのはインターフェース部分が中心になりますが、ドキュメントをある程度整備したら公開する計画です。オープンに開発することによって、フィードバックを貰えたり、GGRNAを利用してもらう機会が増えるのは素晴らしいことだと思います。

Chateau Togo (by @iNut) より:

僕がこの牧場で教わったことは3つありますー
一つ、書いたコードは恥を承知で晒せ。
一つ、コマンドの使い方が分からなければmanを読め。
一つ、フォームを見たらとりあえずXSSを打ち込め。

 

Home > Archives > 2012-06

Search
Feeds
Meta

Return to page top