Home > DBCLS > GGRNAの論文掲載＋今後の計画

GGRNAの論文掲載＋今後の計画

2012-06-05 (火) 18:02
DBCLS

GGRNA論文掲載

GGRNAの論文が5/28付でNucleic Acids Research誌のオンライン版に掲載されました。毎年7/1に発行されるWeb Server Issueに収録されます。

Yuki Naito & Hidemasa Bono (2012)
GGRNA: an ultrafast, transcript-oriented search engine for genes and transcripts.
Nucleic Acids Res. (Web Server Issue) DOI:10.1093/nar/gks448

論文公表にあわせて、日本語の解説を「ライフサイエンス新着論文レビュー」の番外編として公開しました。

統合遺伝子検索GGRNA：遺伝子をGoogleのように検索できるウェブサーバ．
内藤雄樹・坊農秀雅 (2012) ライフサイエンス新着論文レビュー・DBCLSからの成果発信
［印刷用PDF］

「ライフサイエンス新着論文レビュー」はDBCLSが提供している日本語コンテンツのひとつで、最近公開された日本人を著者とする生命科学分野の論文を、著者自身がわかりやすく紹介・解説したものです。Nucleic Acids Researchは残念ながら新着論文レビューの掲載対象誌ではありませんが、DBCLSからの成果を広く発信するために、番外編として記事を執筆させてもらえることになりました。

まずは編集長の飯田さんに草稿を見ていただきました。するとその日のうちに校正が。これはすごい。とても読みやすくなりました。平仮名にする単語、句読点のつかい方、単語の順序などに気をつけるだけでも、かなり読みやすくなるようです。もちろんそれだけでなく、大幅に手を加えていただいた箇所もあります。

ビフォーとアフターを、difff《ﾃﾞｭﾌﾌ》を使って表示してみると、文章が美しくなっている様子がわかります。

difff《ﾃﾞｭﾌﾌ》は文書作成支援ツールとしてmesoが8年前にこっそり作ったプログラムです。誰でも使えるように4月に公開したところ、GIGAZINEで紹介されて話題に。たぶん @h_ono さんがつけてくれた名前が素敵だったからでしょう。ﾃﾞｭﾌﾌ

さて、GGRNAの論文化にあたり、現状の問題点や今後やりたいことが見えてきたので、まとめてみたいと思います。

今後の課題と開発計画

ヒット数が多い場合の高速化

現在のGGRNAにはひとつ問題が残っています。ヒット件数が極端に多いと、圧縮suffix arrayの解凍がネックになりひじょうに時間がかかるのです。たとえば「cancer」「aaaa」を検索するとしばらく結果が返ってきません（しかもヒットが多すぎるため途中で検索が打ち切られます）。また「”translation initiation factor”」というフレーズをダブルクオートをつけずに検索すると、「translation」「initiation」「factor」を別々に検索して結果の共通部分をとるので、ひじょうに時間がかかるうえに意図した結果が返ってきません。これらの問題は、実際にGGRNAを使ってみると頻繁に起こるため、早急に何とかしたいところです。

GGRNAでは内部のエンジンとしてPFIのSedue FlexとMySQLを組み合わせて検索を実行していますが、これらをSSDベースの新しいSedueに置き換えることを計画しています。新しいSedueはsuffix arrayのインデックスを圧縮せずSSDに載せる方式で、大量にヒットした場合でもインデックスの解凍が不要なためかなりの高速化が期待できます。予備的な検討では、前述のようなクエリを含めほとんどが2, 3秒以内に検索できています。ただしエンジンを載せ替えるためにはGGRNAのコードのかなりの部分を書き換えなければなりません。ちょっと時間がかかりそうです。

RefSeq全種＋国際塩基配列DB対応

内部のエンジンをSSDベースの新しいSedueに置き換えることによって、データベースの大きさの制約が大幅に緩和されます。現在512GBのSSDは4万円程度まで価格が下がっており (→ 価格.com)、これに50〜100GBのデータベースが載ります。サーバ用のSSDが割高であることを考慮しても、数百GB程度のデータベースであればGGRNAに載せることが十分に可能です。

現在のGGRNAは、RefSeqのうち13種のモデル生物に対応していますが、今年度中にRefSeqの全生物種＋GenBank/EMBL/DDBJ国際塩基配列データベース（INSDC）に登録されたゲノム以外の配列全体を取り込んでしまおうと計画しています。データベースの大きさは、現在のGGRNAの約100倍になる見込みです。

参考：

RefSeq mRNA 13生物種.gz：0.7GB（解凍後約4GB）
RefSeq mRNA全体.gz：4.0GB（解凍後約20GB）
INSDCゲノム以外.gz：64.4GB（解凍後約350GB）

また、INSDCを構成する機関のひとつであるDDBJは、DBCLSと同じ情報・システム研究機構の組織ですので、DDBJと有機的に連携しながら開発を進めていければと考えています。

結果のランキングなど

RefSeq＋INSDC全体をGGRNAに入れただけでは、おそらく検索ノイズが増えて使いにくくなってしまうと思われます。本当に使いやすいサービスにするためには、ユーザが求める情報に短時間で到達できるように検索結果の見せ方を工夫する必要があります。具体的には、ランキングを改良することと、結果を後から絞り込めるようにファセット検索を実装することを計画しています。

GGRNAのオープンソース化

論文投稿時にある方からGGRNAのオープンソース化を検討してはどうかと提案をいただきました。これは是非やってみたいです。エンジンは商用のプログラムを利用しているので、公開できるのはインターフェース部分が中心になりますが、ドキュメントをある程度整備したら公開する計画です。オープンに開発することによって、フィードバックを貰えたり、GGRNAを利用してもらう機会が増えるのは素晴らしいことだと思います。

Chateau Togo (by @iNut) より：