Home > Archives > 2012-08

2012-08

DDBJ 89.0 (Jun, 2012)

DDBJのデータベースについて記事を書いた直後に89.0がリリースされたのでメモ。無脊椎 (INV) はエントリ数、塩基数とも減っていた。理由を調べてみると、生物種がはっきり書かれていないエントリなどが大量にremoveされていた(例:GU672000)。

一通りダウンロードして、現在は塩基配列部分をインデクシング中。

Division内容エントリ塩基ファイルサイズ(GB)
合計160,254,629141,016,380,296561,920,288,622523.3
HUMヒト563,3864,996,058,0958,374,749,4827.8
PRI霊長類 (ヒトを除く)102,9891,292,811,0121,891,443,3661.8
ROD齧歯類440,1594,430,778,9887,005,892,0956.5
MAM哺乳類 (ヒト,霊長類,齧歯類を除く)312,768852,651,0011,781,940,9101.7
VRT脊椎動物 (ヒト,霊長類,齧歯類,哺乳類を除く)1,057,2402,845,002,2786,069,241,0555.7
INV無脊椎動物1,577,8292,443,533,4516,843,835,7026.4
PLN植物・真菌類 など2,471,5695,840,633,85713,652,436,94112.7
BCTバクテリア841,5418,158,523,79219,074,978,51617.8
VRLウイルス1,185,8601,371,199,2514,914,556,9544.6
PHGバクテリオファージ6,51277,382,875187,608,5520.2
PAT特許出願に含まれる塩基配列データ23,998,51611,945,459,36442,322,850,20039.4
ENVPCR,DGGE,あるいは,その他の方法で直接,
分子を単離した環境上のサンプルに由来した配列
4,715,1293,237,988,58412,653,785,92111.8
SYNsynthetic constructs
人為的に構成された配列
123,112926,662,9701,643,396,7411.5
ESTexpressed sequence tags
short single pass の cDNA 配列
73,142,30540,637,013,620239,749,294,113223.3
TSAtranscriptome shotgun assemblies
再構成された (assembled) mRNA 配列
6,714,9084,679,084,40918,903,720,24217.6
GSSgenome survey sequences short single pass のゲノム配列33,998,78421,641,585,15599,772,519,36592.9
HTChigh throughput cDNA sequences
EST 以外の大規模 cDNA 配列プロジェクトに由来。
最終的に,生物種による division に移される場合がある。
551,351634,629,9612,512,724,3772.3
HTGhigh throughput genomic sequences
ゲノムプロジェクトに由来。
最終的に,生物種による division に移される。
146,42724,368,642,65432,103,302,38129.9
STSsequence tagged sites
Genome sequencing の tag となる配列。
chromosome, map, PCR_condition 等の情報が必要。
1,322,639636,259,4704,497,106,4904.2
UNA未注釈データ
最近は UNA division は使用していない。
290479,5091,379,7370.001
CONContig / Constructed
ゲノムプロジェクトのように個々に登録された一連の
配列データを結合し,1つのアクセッション番号を付与
した長大なデータ。塩基配列は記載されない。
6,981,315037,963,525,48235.4

※ 表はDDBJ 89.0の リリースノート を集計。Divisionの説明は「DDBJ のデータ公開形式 (flat file) の説明」を抜粋。

Home > Archives > 2012-08

Search
Feeds
Meta

Return to page top