Home > DBCLS > DDBJの塩基配列データベース

DDBJの塩基配列データベース

  • 2012-06-25 (月) 18:19
  • DBCLS

GGRNAにGenBank/EMBL/DDBJの塩基配列を全部入れようとしています。塩基配列は3極で毎日交換されており、各FTPサイトから同様のデータセットをダウンロードできるのですが、GenBankよりDDBJのサイトのほうがきっちり整理されていて、説明も丁寧なように見えます(例:DDBJ のデータ公開形式 (flat file) の説明 など日本語の解説も充実)。しかもファイルの転送が高速で、GenBankからダウンロードすると一晩かかるところが、DDBJからだと20分程度で約70GBの圧縮ファイルをダウンロードできます。

データベースは21のdivisionに別れています。簡単なスクリプトを書いて、DDBJ 88.0 (2011年12月) の リリースノート を下記のように集計してみました。展開後のファイルサイズはDDBJ 88.0全体で約500GBありますが、ほとんどのユーザにとっては、上から13個のHUM〜SYN (111GB) あるいはそれにESTを加えたもの (330GB) が検索できれば十分のような気がします。全部をGGRNAに入れると余計なヒットが増える上にスピードも遅くなり、結果として使いにくくなるかも。。。

しかし、まずは全部を入れてみて、使い勝手を評価しつつ良い方法を考えていこうと思います。

Division内容エントリ塩基ファイルサイズ(GB)
合計152,763,469134,956,109,049536,061,081,910499.2
HUMヒト549,3204,871,171,7908,108,485,7407.6
PRI霊長類 (ヒトを除く)100,8391,290,713,2071,884,393,2251.8
ROD齧歯類428,9284,415,260,7566,956,941,0306.5
MAM哺乳類 (ヒト,霊長類,齧歯類を除く)296,080827,310,5161,710,667,1221.6
VRT脊椎動物 (ヒト,霊長類,齧歯類,哺乳類を除く)901,0312,736,438,1705,651,416,0415.3
INV無脊椎動物1,705,9002,490,017,1147,325,302,7906.8
PLN植物・真菌類 など2,267,5065,552,139,56412,782,926,98211.9
BCTバクテリア766,1377,342,956,89517,261,515,94216.1
VRLウイルス1,097,1121,252,521,3024,502,279,6504.2
PHGバクテリオファージ6,36569,569,157169,429,2170.2
PAT特許出願に含まれる塩基配列データ23,134,64811,447,354,63041,298,319,16738.5
ENVPCR,DGGE,あるいは,その他の方法で直接,
分子を単離した環境上のサンプルに由来した配列
3,973,1752,662,200,44510,296,471,5789.6
SYNsynthetic constructs
人為的に構成された配列
121,592922,229,2491,633,026,0421.5
ESTexpressed sequence tags
short single pass の cDNA 配列
71,312,54139,638,590,086234,127,930,692218.0
TSAtranscriptome shotgun assemblies
再構成された (assembled) mRNA 配列
4,322,7052,821,816,09611,585,871,01810.8
GSSgenome survey sequences short single pass のゲノム配列32,874,01121,009,093,48396,812,686,53790.2
HTChigh throughput cDNA sequences
EST 以外の大規模 cDNA 配列プロジェクトに由来。
最終的に,生物種による division に移される場合がある。
535,729611,638,9332,441,930,8652.3
HTGhigh throughput genomic sequences
ゲノムプロジェクトに由来。
最終的に,生物種による division に移される。
145,89124,358,635,47632,097,295,00829.9
STSsequence tagged sites
Genome sequencing の tag となる配列。
chromosome, map, PCR_condition 等の情報が必要。
1,322,165635,972,1074,496,495,7984.2
UNA未注釈データ
最近は UNA division は使用していない。
290480,0731,381,5920.001
CONContig / Constructed
ゲノムプロジェクトのように個々に登録された一連の
配列データを結合し,1つのアクセッション番号を付与
した長大なデータ。塩基配列は記載されない。
6,901,504034,916,315,87432.5

※ 表はDDBJ 88.0の リリースノート を集計。Divisionの説明は「DDBJ のデータ公開形式 (flat file) の説明」を抜粋。

Trackbacks:0

Trackback URL for this entry
/archives/1966/trackback
Listed below are links to weblogs that reference
DDBJの塩基配列データベース from mesoの実験ノート

Home > DBCLS > DDBJの塩基配列データベース

Search
Feeds
Meta

Return to page top