Home > DBCLS > 生物種の追加とデータベース更新

生物種の追加とデータベース更新

  • 2011-05-31 (火) 17:07
  • DBCLS

前回のpostでは、mesoが構築している「遺伝子をGoogleのように(?)検索できるサイト」を紹介した。

まずはヒト遺伝子バージョンを作って公開したわけだが、それだけではヒトをやっている人にしか使ってもらえないので生物種を増やすことにした。とは言ってもマシンの容量の制約があるので、取り入れる生物種を絞らないといけない。

生物種の選定

今回はmesoの独断と偏見に基づき、モデル生物として普及しており、かつゲノムや個々の遺伝子に関する情報が豊富な生物種を10種くらい選ぶことにした。@synobuさんが教えてくれたGene Ontologyコンソーシアムのページも参考にした。

このページの中ほどにあるモデル生物のリストが使えそう。

  • Arabidopsis thaliana – シロイヌナズナ
  • Caenorhabditis elegans – 線虫
  • Danio rerio – ゼブラフィッシュ
  • Dictyostelium discoideum – タマホコリカビ(今回は見送り)
  • Drosophila melanogaster – ショウジョウバエ
  • Escherichia coli – 大腸菌(今回は見送り)
  • Gallus gallus – ニワトリ
  • Homo sapiens – ヒト
  • Mus musculus – マウス
  • Rattus norvegicus – ラット
  • Saccharomyces cerevisiae – 出芽酵母
  • Schizosaccharomyces pombe – 分裂酵母

このうち大腸菌、タマホコリカビ、それから別にリクエストをいただいた枯草菌、シアノバクテリアは、データの形式の問題で今回は見送り、別に対応を考えることにした。またtwitterでご連絡いただいたイネをはじめNBRPな生物種は次回以降の更新でぜひ取り入れたい。

データの取得

ちょうど5月に入ってRefSeq release 47がリリースされたので、ついでにヒトの配列も更新する。RefSeqは2ヶ月に1回の頻度で新しいバージョンがリリースされるので、mesoの検索サイトもそれにあわせて更新できるよう、データベースの追加・更新を簡単にできるような仕組みをつくる必要がある。

RefSeqの最新版は下記からダウンロードできる。

この中にある全生物種の転写産物を収録したGBFF(GenBank Flat File)形式のファイル、completeXXX.rna.gbff.gz(release 47ではXXXは1〜418)をダウンロードした。容量はgz圧縮で3.4GB、展開すると17.2GBある。各transcriptのSOURCE欄を見て特定の生物種だけを抜き出すスクリプト(grep_gbff.pl)を使い、前述の10種を抜き出した。

生物種GenBank形式(GBFF)
ファイルのSOURCE欄
Transcript数GenBank形式(GBFF)
ファイルの容量(MB)
ヒトHomo sapiens (human)46,727846.6
マウスMus musculus (house mouse)35,892585.4
ラットRattus norvegicus (Norway rat)30,862225.0
ニワトリGallus gallus (chicken)5,41838.8
ゼブラフィッシュDanio rerio (zebrafish)28,261190.5
ショウジョウバエDrosophila melanogaster (fruit fly)22,929352.1
線虫Caenorhabditis elegans24,377165.0
シロイヌナズナArabidopsis thaliana (thale cress)34,525197.0
出芽酵母Saccharomyces cerevisiae S288c5,86337.8
分裂酵母Schizosaccharomyces pombe 972h-5,01039.6
合計239,8642677.7

検索サイト更新

以上のデータを取り入れて検索サイトをアップデートした。当初はあくまで「窓ひとつ」で検索できることにこだわっており、spe:human のように生物種もタグで指定することを考えていたが、それはやめてプルダウンで選ぶ方針にした。ユーザの立場で考えてみると、検索の時点で生物種が決まっている場合が多いだろうということと、普段ショウジョウバエなど特定のモデル生物を扱っている研究者は、その種を中心に検索することが多いという事情を考慮した。

どうせなら入口を分けてもよいかもしれない。下記のURLからアクセスすると、最初からそれぞれの種がプルダウンで選ばれた状態になる。毎回プルダウンを選択する必要がないうえに、ブックマークもしやすいだろう。

(6/1更新)URLを少し変更して /~meso/ なしでアクセスできるようにしました。過去にアナウンスしたURLも当分は使えますが、上記のURLをご利用ください。
(8/18更新:URLを全面的に変更しました。過去にアナウンスしたURLから転送されます。

ちなみにこれはウェブサーバ側でURLの /mm/ の部分を index.cgi?spe=mm などと書き換えるRewriteRuleを書いて実現している。mod_rewrite便利。

さて、こうしているうちに新たなバグが見つかったので修正しないと。

Trackbacks:0

Trackback URL for this entry
/archives/421/trackback
Listed below are links to weblogs that reference
生物種の追加とデータベース更新 from mesoの実験ノート

Home > DBCLS > 生物種の追加とデータベース更新

Search
Feeds
Meta

Return to page top