- 2011-05-18 (水) 19:46
- DBCLS
遺伝子をGoogleのような感覚でサクサク検索できたら便利だろうと考え、サイトをつくってみた。mesoが構築している「RNA統合データベース」を構成する仕組みのひとつとなる予定だ。
http://bit.ly/RNAbrowser→ http://GGRNA.dbcls.jp/ (8/18更新:URLを変更)
NCBI RefSeq release 46 (Mar, 2011)に登録されているヒトのtranscriptを対象にフリーワードで検索できる。とくに、塩基配列まで含めて検索できるようにしたところがこのサイトの売りで、オプションにより1〜2塩基のミスマッチを許した検索も可能だ。
使いかたは、検索ウィンドウに単語を打ち込むだけ。あえて入り口はシンプルにした。細かい条件をつけたいときのために、aa:KLQEEM(アミノ酸配列から検索)のようなタグを何種類か用意した。ただしタグを明示的につけなくても多くの場合は望みの結果が得られるはずだ。
複数のキーワードを入れるとAND検索になり、たとえばこんな結果が表示される。
上の例では、”cell division”というキーワードで806件、symbol:STIL(symbolから検索)で2件、atggagcctという塩基配列を持つものが749件。そして、3つの検索語をすべて含むものが2件([AND]欄を参照)見つかった。Results:欄にその2件の遺伝子の概要が表示されている。
(5/26追記)「2件の遺伝子」と書いてしまったが、この2件はSTILという1つの遺伝子に由来する2種類のtranscript variantである。
このように複数のキーワードを入れた場合は、いわゆる絞り込み検索をするのではなく、3つの独立した検索をおこなってその結果の共通部分を求める仕組みにした。これは、各々の検索語ごとのヒット件数がわかるほうが便利だろうと思ったからだ。たとえば、ユーザの意図する検索結果が出てこなかった場合、検索語を変えたうえで再検索することになるわけだが、どの検索語を変えればうまく絞り込めるのかを考える上で参考になるだろう。
キーワードごとに独立した検索をおこなっているため時間はかかるが、それでも上記の結果は約1秒で返ってくる。
さて、Results:欄だが、NCBIのnucleotide、UCSCゲノムブラウザ、RefExにリンクしている。RefExはDBCLSで提供している発現量のリファレンスデータセットだ。検索でヒットした遺伝子がどのくらい発現しているのかをワンクリックで概観できる。
- RefEx — http://togoexp.dbcls.jp/aboutrefex
DBCLSが提供している遺伝子の発現量データベース。
さらに、Results:欄の各遺伝子のリンクをクリックすると、おなじみのGenBankフォーマットで詳細が表示される。入力したキーワードがハイライトされ、見つけやすくなっている。
開発途上のため不安定なところがあるかもしれない。お手数でなければ不具合のご指摘やコメントなど頂ければたいへんありがたい。
将来は、転写産物=RNAをベースに知識(塩基配列、文献、プローブ、siRNA、等々)を統合したデータベースをつくり、さまざまな切り口で遺伝子を「さがす」または「ながめる」ことができるようなサイトの公開を目指している。何をどんなふうに統合して、どんな使い勝手になるのかは別に紹介していきたいと思う。今回はその準備という位置づけだ。
なお今回のサイトは、2006年頃に私がPreferred Infrastructureの西川徹さんらと一緒にコンセプトや仕様を考え、西川さんらが実装したGenome Sedueというサイトをもとにして、RNA統合データベースに必要な仕組みを盛り込んで発展させている。
- Preferred Infrastructure — http://preferred.jp/
検索エンジン関連を中心に非常に高い技術をもつ会社。 - Genome Sedue — http://labs.preferred.jp/genome/
現在は使えなくなっている。
- Newer: 生物種の追加とデータベース更新
- Older: ウェブサービスの立ち上げとXSS対策
Trackbacks:0
- Trackback URL for this entry
- /archives/133/trackback
- Listed below are links to weblogs that reference
- 遺伝子をGoogleのように検索できるサイト from mesoの実験ノート