- 2012-06-25 (月) 18:19
- DBCLS
GGRNAにGenBank/EMBL/DDBJの塩基配列を全部入れようとしています。塩基配列は3極で毎日交換されており、各FTPサイトから同様のデータセットをダウンロードできるのですが、GenBankよりDDBJのサイトのほうがきっちり整理されていて、説明も丁寧なように見えます(例:DDBJ のデータ公開形式 (flat file) の説明 など日本語の解説も充実)。しかもファイルの転送が高速で、GenBankからダウンロードすると一晩かかるところが、DDBJからだと20分程度で約70GBの圧縮ファイルをダウンロードできます。
データベースは21のdivisionに別れています。簡単なスクリプトを書いて、DDBJ 88.0 (2011年12月) の リリースノート を下記のように集計してみました。展開後のファイルサイズはDDBJ 88.0全体で約500GBありますが、ほとんどのユーザにとっては、上から13個のHUM〜SYN (111GB) あるいはそれにESTを加えたもの (330GB) が検索できれば十分のような気がします。全部をGGRNAに入れると余計なヒットが増える上にスピードも遅くなり、結果として使いにくくなるかも。。。
しかし、まずは全部を入れてみて、使い勝手を評価しつつ良い方法を考えていこうと思います。
Division | 内容 | エントリ | 塩基 | ファイルサイズ | (GB) |
---|---|---|---|---|---|
合計 | 152,763,469 | 134,956,109,049 | 536,061,081,910 | 499.2 | |
HUM | ヒト | 549,320 | 4,871,171,790 | 8,108,485,740 | 7.6 |
PRI | 霊長類 (ヒトを除く) | 100,839 | 1,290,713,207 | 1,884,393,225 | 1.8 |
ROD | 齧歯類 | 428,928 | 4,415,260,756 | 6,956,941,030 | 6.5 |
MAM | 哺乳類 (ヒト,霊長類,齧歯類を除く) | 296,080 | 827,310,516 | 1,710,667,122 | 1.6 |
VRT | 脊椎動物 (ヒト,霊長類,齧歯類,哺乳類を除く) | 901,031 | 2,736,438,170 | 5,651,416,041 | 5.3 |
INV | 無脊椎動物 | 1,705,900 | 2,490,017,114 | 7,325,302,790 | 6.8 |
PLN | 植物・真菌類 など | 2,267,506 | 5,552,139,564 | 12,782,926,982 | 11.9 |
BCT | バクテリア | 766,137 | 7,342,956,895 | 17,261,515,942 | 16.1 |
VRL | ウイルス | 1,097,112 | 1,252,521,302 | 4,502,279,650 | 4.2 |
PHG | バクテリオファージ | 6,365 | 69,569,157 | 169,429,217 | 0.2 |
PAT | 特許出願に含まれる塩基配列データ | 23,134,648 | 11,447,354,630 | 41,298,319,167 | 38.5 |
ENV | PCR,DGGE,あるいは,その他の方法で直接, 分子を単離した環境上のサンプルに由来した配列 | 3,973,175 | 2,662,200,445 | 10,296,471,578 | 9.6 |
SYN | synthetic constructs 人為的に構成された配列 | 121,592 | 922,229,249 | 1,633,026,042 | 1.5 |
EST | expressed sequence tags short single pass の cDNA 配列 | 71,312,541 | 39,638,590,086 | 234,127,930,692 | 218.0 |
TSA | transcriptome shotgun assemblies 再構成された (assembled) mRNA 配列 | 4,322,705 | 2,821,816,096 | 11,585,871,018 | 10.8 |
GSS | genome survey sequences short single pass のゲノム配列 | 32,874,011 | 21,009,093,483 | 96,812,686,537 | 90.2 |
HTC | high throughput cDNA sequences EST 以外の大規模 cDNA 配列プロジェクトに由来。 最終的に,生物種による division に移される場合がある。 | 535,729 | 611,638,933 | 2,441,930,865 | 2.3 |
HTG | high throughput genomic sequences ゲノムプロジェクトに由来。 最終的に,生物種による division に移される。 | 145,891 | 24,358,635,476 | 32,097,295,008 | 29.9 |
STS | sequence tagged sites Genome sequencing の tag となる配列。 chromosome, map, PCR_condition 等の情報が必要。 | 1,322,165 | 635,972,107 | 4,496,495,798 | 4.2 |
UNA | 未注釈データ 最近は UNA division は使用していない。 | 290 | 480,073 | 1,381,592 | 0.001 |
CON | Contig / Constructed ゲノムプロジェクトのように個々に登録された一連の 配列データを結合し,1つのアクセッション番号を付与 した長大なデータ。塩基配列は記載されない。 | 6,901,504 | 0 | 34,916,315,874 | 32.5 |
※ 表はDDBJ 88.0の リリースノート を集計。Divisionの説明は「DDBJ のデータ公開形式 (flat file) の説明」を抜粋。
- Newer: マイクロアレイ学生実習
- Older: GGRNAの論文掲載+今後の計画
Trackbacks:0
- Trackback URL for this entry
- /archives/1966/trackback
- Listed below are links to weblogs that reference
- DDBJの塩基配列データベース from mesoの実験ノート