Trace Archive

Trace Archive は閉鎖されました。
trace データのアクセス方法は Access Trace Data をご覧ください。

例 TI 番号 2282248605
curl “https://www.ncbi.nlm.nih.gov/Traces/sra-reads-be/fasta?ti=2282248605&retmode=text”

キャピラリシークエンスデータは DRA に登録することができます。登録する場合、Experiment Instrument でキャピラリシークエンサーを選択します。
登録例 DRX395641-DRX395673

Trace Archive の概要

DDBJ Trace Archive (DTA) は，配列決定プロジェクトからのシングルパスリードの DNA sequence chromatograms (traces), base calls, quality estimates のためのデータベースです。 Trace Archive は International Nucleotide Sequence Database Collaboration (INSDC) のメンバーとして，DDBJ，NCBI と EBI が国際協力して運営しています。NCBI Trace Archive が ID を発行管理しています。 DTA から登録された trace データは NCBI Trace Archive で検索，取得することができます。

trace データは DDBJ Sequence Read Archive で受付けています。特に理由がない限り DRA に登録してください。

メタデータ

必要な項目は STRATEGY と TRACE_TYPE_CODE の組み合わせで決まります。メタデータは NCBI Trace Archive で検索することができます。

必須項目は Validation Table で確認してください。

必須*
STRATEGY と TRACE_TYPE_CODE の組み合わせによっては必須 *

Metadata Field List

ACCESSION

DDBJ/EMBL/GenBank アクセッション番号

Type: varchar(30)
Example: AC22227

ACCESSION は配列データを配列データベース (DDBJ/EMBL/GenBank) に登録することで割り振られます。いくつかの種類の trace (特に WGS) では記載できません。アクセッション番号により Trace Archive の１次配列データと配列データベースの２次配列データが結び付きます。

AMPLIFICATION_FORWARD *

テンプレートの増幅用フォワードプライマーの塩基配列

Type: varchar(100)
Example: GGATTCTGACTAACGAGC

配列決定のために用いられたテンプレート増幅用プライマーの配列を記載します。次の場合に必須です:TRACE_TYPE_CODE=PCR or RT-PCR。

AMPLIFICATION_REVERSE *

テンプレートの増幅用リバースプライマーの塩基配列

Type: varchar(100)
Example: GGATTCTGACTAACGAGC

配列決定のために用いられたテンプレート増幅用プライマーの配列を記載します。次の場合に必須です:TRACE_TYPE_CODE=PCR or RT-PCR。

AMPLIFICATION_SIZE

プライマーペアによる増幅断片長

Type: int
Example: 500

AMPLIFICATION_SIZE にはAMPLIFICATION_FORWARD とAMPLIFICATION_REVERSEのプライマーペアによって増幅される断片の長さを塩基対数で記載します。TRACE_TYPE_CODE=PCR の場合はゲノム DNA，TRACE_TYPE_CODE=RT-PCR の場合は転写産物を増幅した断片長になります。

ANONYMIZED_ID

個人に対する匿名化された ID

Type: varchar(100)
Example: 2222anonym

ドナーの匿名性を保護するプロジェクトで使用します。多くの場合 Trace Archive の匿名化された ID と表現型情報が得られた個人の ID とを結びつけるアクセスが制限されたデータベースが存在します。

ATTEMPT: センターによって試みられたプロジェクトの回数 and/or Trace Archive への登録回数
Type: tinyint(1-255)
Example: 2

BASE_FILE

ベースコールが記載されたファイル名

Type: varchar(200)
Example: ./mytraces/123clone.fasta

trace ファイルがベースコールを含んでいない場合，ベースコールが含まれた別のファイルを登録します。BASE_FILE でファイルを指定します。trace (通常は scf) ファイル中のベースコール情報は BASE_FILE のもので上書きされます。BASE_FILE と trace ファイルのベースコールが同じ場合は BASE_FILE を登録しないでください。BASE_FILE とQUAL_FILE の両方を登録する場合は，あわせて peak index 情報をPEAK_FILE として別ファイルで登録します。

CENTER_NAME *

センター名の略称

Type: varchar(50)
Example: WUGSC

DDBJ Trace Archive にデータを登録する前にセンター名の略称を登録します。この略称は CENTER_NAME で使われます。登録されている CENTER_NAME の一覧:
http://www.ncbi.nlm.nih.gov/Traces/trace.cgi?view=submitting_centers
Sequence Read Archive の center name とは別になります。

CENTER_PROJECT *

センター独自のプロジェクト名

Type: varchar(100)
Example: HBBB

CENTER_PROJECTはシークエンスセンター内部で使用するプロジェクト名です。この項目は関連する trace をまとめるのに役立ちます。

CHEMISTRY: シークエンス反応で使われたケミストリー
Type: varchar(50)
Example: BIGDYEV3.0

CHEMISTRY_TYPE

シークエンス反応で使われたケミストリーの種類

Type: char(50)
Example: P

CHEMISTRY_TYPEで使用可能な語句:
Primer
Terminator
p=primer
t=terminator

CHROMOSOME

trace が由来する染色体

Type: varchar(8)
Example: 11

CHROMOSOMEは trace が由来する染色体を示します。遺伝子名や cytogenetic position は染色体情報としては適していません。

CLIP_QUALITY_LEFT

信頼性評価に基づくリードの左クリップ位置 (塩基対数)

Type: int
Example: 56

CLIP_QUALITY_LEFTは信頼性が低いためクリップされるべきリードの始まりの部分です。ベースコールの信頼性が高い領域をその最初の塩基位置で示します。

CLIP_QUALITY_RIGHT

信頼性評価に基づくリードの右クリップ位置 (塩基対数)

Type: int
Example: 256

CLIP_QUALITY_RIGHTは信頼性が低いためクリップされるべきリードの終わりの部分です。ベースコールの信頼性が高い領域をその最後の塩基位置で示します。

CLIP_VECTOR_LEFT *

ベクター配列に基づくリードの左クリップ位置 (塩基対数)

Type: int
Example: 75

CLIP_VECTOR_LEFT はベクター配列に基づきクリップされるべきリードの始まりの部分です。非ベクター配列の最初の塩基の位置で示します。この項目はほとんど全ての STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です。この情報は INSERT_FLANK_LEFT が記載されている場合，もしくは，[TRACE_TYPE_CODE](#TRACE_TYPE_CODE span>=PCR orRT-PCR の場合には省略できます。

CLIP_VECTOR_RIGHT *

ベクター配列に基づくリードの右クリップ位置 (塩基対数)

Type: int
Example: 275

CLIP_VECTOR_RIGHT はベクター配列に基づきクリップされるべきリードの終わりの部分です。非ベクター配列の最後の塩基の位置で示します項目はほとんど全てのSTRATEGY と TRACE_TYPE_CODE の組み合わせで必須です。
この情報は INSERT_FLANK_RIGHT が記載されている場合，もしくは，TRACE_TYPE_CODE=PCR or RT-PCR の場合には省略できます。
注意: 多くのセンターではベクター配列解析と信頼性評価を一緒に行っており，１セットのクリップ情報しかない場合がありまの場合はCLIP_VECTOR_LEFTとCLIP_VECTOR_RIGHT に値を記入します。

CLONE_ID *

trace が由来するクローン名

Type: varchar(30)
Example: RP23-1123F10

CLONE_ID は個々の BAC，PAC や cDNA クローンの ID です。クローンが Clone Registry (http://www.ncbi.nlm.nih.gov/clone/) に登録されている場合はstandard clone registry nomenclature (http://www.ncbi.nlm.nih.gov/clone/content/overview/)に従って記載します。
次の STRATEGYと TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=cDNA;TRACE_TYPE_CODE=Any
STRATEGY=EST;TRACE_TYPE_CODE=Any
STRATEGY=CLONEEND;TRACE_TYPE_CODE=CLONEEND
STRATEGY=CLONE;TRACE_TYPE_CODE=Any
STRATEGY=ENCODE;TRACE_TYPE_CODE=SHOTGUN;PrimerWalk; CLONEEND
STRATEGY=FINISHING;TRACE_TYPE_CODE=Any

CLONE_ID_LIST *

セミコロンで区切られたクローンのリスト (Strategy が PoolClone の場合)

Type: varchar(30)
Example: RP23-200A2;RP23-500P1

CLONE_ID_LISTは STRATEGY=PoolClone の場合にのみ必須です。この場合はセミコロンで区切ったクローンのリストを記載します。クローンが Clone Registry (http://www.ncbi.nlm.nih.gov/clone/) に登録されている場合は standard cloneregistry nomenclature (http://www.ncbi.nlm.nih.gov/clone/content/overview/) に従って記載します。
注意:リストに含まれるクローン数に制限はありませんが，個々のクローンのサイズは 30 バイトに制限されています。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です: STRATEGY=PoolClone;TRACE_TYPE_CODE=Any

COLLECTION_DATE *

環境サンプルが採取された日時 (例 Mar 2 2006 12:00AM)

Type: datetime
Example: Mar 2 2006 12:00AM

COLLECTION_DATEは環境サンプルが採取された日時を示します。
次の STRATEGYと TRACE_TYPE_CODEの組み合わせで必須です:
STRATEGY=Env Sample-Geo; TRACE_TYPE_CODE=AnySTRATEGY=Env Sample-Host; TRACE_TYPE_CODE=Any

CVECTOR_ACCESSION

クローニングベクター配列の DDBJ/EMBL/GenBank アクセッション番号

Type: varchar(50)
Example: AY451994

CVECTOR_ACCESSIONは使用されたクローニングベクターのアクセッション番号です。この番号はCLONE_IDに記入されたベクターに対応します。

CVECTOR_CODE

センターがクローニングベクターに付けたコード

Type: varchar(50)
Example: PBACE3.6

CVECTOR_CODEには登録者がクローニングベクターに付けたコードを記入します。使われた全てのクローニングベクターの配列は DDBJ/EMBL/GenBank に登録することが推奨されます。

DEPTH

環境サンプルが採取された深度 (メーター)

Type: float
Example: 10M

DEPTHは水圏や土壌から採取された環境サンプルで記載できます。この値が NULL のときはサンプルが環境の表面から採取されたものとみなされます。この項目は環境サンプルにのみ記載可能ですが必須ではありません。

ELEVATION

環境サンプルが採取された高度 (メーター)

Type: float
Example: 500

この値が NULL のときはサンプルは海水位で取得されたものとみなされます。この項目はいくつかの環境サンプルでのみ記載可能ですが必須ではありません。

ENVIRONMENT_TYPE *

環境サンプルが採取された環境の種類

Type: varchar(250)
Example: sea water

ENVIRONMENT_TYPEでは環境サンプルが取得された環境の種類を記載します。LATITUDE と LONGITUDEで地理上の位置を示せますが，ある位置には環境が存在し得ます (土壌，泥，木の根など)。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=PoolClone;TRACE_TYPE_CODE=Any
STRATEGY=Env Sample-Geo; TRACE_TYPE_CODE=Any

EXTENDED_DATA

EXTENDED_DATA block 中の<field>タグのなかに記載された任意の追加情報

Type: varchar()
Example:

<extended_data>
<field name=’SamplingSiteMonthChlorophyllLevel’>1.4 mg_mm</field>
<field name=’SamplingSiteYearlyChlorophyllLevel’>1.12 mg_mm</field>
<field name=’SamplingSiteYearlyChlorophyllLevelStdError’>0.19 mg_mm</field>
</extended_data>
‘=’ と区切り文字の ‘|’ は name とその値には使用できません。これらの記号の混入以外はチェックされません。

FEATURE_ID_FILE

チップ上の feature とその位置を記載したファイル

Type: varchar(200)
Example: ./mytraces/chip2.cdf

TRACE_TYPE_CODE=”CHIP”のとき FEATURE_ID_FILEでチップ上の feature の位置と配列を記載したファイルを指定します。

FEATURE_ID_FILE_NAME *

共通の FEATURE_ID_FILE (先に登録します) へのリファレンス

Type: varchar(200)
Example:

この項目は TRACE_TYPE_CODE=”CHIP” のときに必須です。

FEATURE_SIGNAL_FILE

チップ上の feature のシグナルと分散が記載されたファイル

Type: varchar(200)
Example: ./mytraces/chip2.signal

TRACE_TYPE_CODE=”CHIP”のときにチップ上の feature のシグナルと分散が記載されたファイルを FEATURE_SIGNAL_FILEで指定します。

FEATURE_SIGNAL_FILE_NAME *

共通の FEATURE_SIGNAL_FILE (先に登録します) へのリファレンス

Type: varchar(200)
Example:

この項目は TRACE_TYPE_CODE=”CHIP” のときに必須です。

GENE_NAME

遺伝子名や遺伝子の ID

Type: varchar(100)
Example: transporter 1

フリーテキスト。主に TRACE_TYPE_CODE=’Re-sequencing’ or’ENCODE’ のときに使われます。研究対象の遺伝子を遺伝子名や何らかの ID で参照します。

HI_FILTER_SIZE

環境サンプルを分取したフィルターで一番大きいサイズ

Type: varchar(50)
Example: 50 micron

HI_FILTER_SIZEは環境サンプルでのみ記載可能ですが必須ではありません。

HOST_CONDITION

環境サンプルが採取されたホストの状態

Type: varchar(100)
Example: HIV-positive

HOST_CONDITIONは環境サンプルでのみ記載可能でホストのコンディション (healthy, sick など) を記載します。

HOST_ID *

環境サンプルが取得されたホストに付けられた固有の ID

Type: varchar(100)
Example: yerkes pedigree #C0479 ‘Clint’

HOST_IDは環境サンプルでのみ記載可能でホストを特定するのに利用されます。
次の STRATEGYと TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Env Sample-Host; TRACE_TYPE_CODE=Any

HOST_LOCATION *

環境サンプルが採取されたホスト上の特定の場所

Type: varchar(100)
Example: rumen

HOST_LOCATIONには環境サンプルが採取されたホスト上の特定の場所，例えば dental plaque，hindgut，root surfaces を記載します。
次の STRATEGYと TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Env Sample-Host; TRACE_TYPE_CODE=Any

HOST_SPECIES *

環境サンプルが採取されたホスト

Type: varchar(100)
Example: Pan troglodytes

HOST_SPECIESは環境サンプルでのみ記載可能です。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Env Sample-Host; TRACE_TYPE_CODE=Any

INDIVIDUAL_ID

trace が由来する個人やサンプルの ID

Type: varchar(100)
Example: NA12345

INDIVIDUAL_IDは trace と個人とを結び付けるセンター独自の ID です。この項目は主に population を対象とした研究で使用します。

INSERT_FLANK_LEFT *

クローニング部位の左に隣接する塩基配列

Type: varchar(100)
Example: AAGGTGCGATGCAGTGGCAGTAGCAGTGTCGACGTGACGATTCGTCCGGA

INSERT_FLANK_LEFT ではクローニング部位の左に隣接するリンカーを含む塩基配列 (50-100 塩基) を記入します。この情報によりユーザは独自にベクターをトリミングすることができます。この項目はほとんど全ての STRATEGY と TRACE_TYPE_CODE で必須です。この項目は CLIP_VECTOR_LEFT がある場合には省略できますが，INSERT_FLANK_LEFT への記入を推奨しています。クローニングステップがない場合は ‘NONE’ と記入します。

INSERT_FLANK_RIGHT *

クローニング部位の右に隣接する塩基配列

Type: varchar(100)
Example: AAGGCGCGATGCAGTGAGCGAGGCTGACGTCGGCTAGCGTCGCGTCGGGT

INSERT_FLANK_RIGHT ではクローニング部位の右に隣接するリンカーを含む塩基配列 (50-100 塩基)　を記入します。この情報によりユーザは独自にベクターをトリミングすることができます。この項目はほとんど全ての STRATEGY と TRACE_TYPE_CODE で必須です。この項目は CLIP_VECTOR_RIGHT がある場合には省略できますが，INSERT_FLANK_RIGHT への記入を推奨しています。クローニングステップがない場合は ‘NONE’ と記入します。

INSERT_SIZE *

インサートの平均塩基配列長 (TEMPLATE_ID の値で参照されます)

Type:int
Example: 2000

INSERT_SIZEは配列決定されるクローンの期待されるインサート長を示します。あるライブラリーに対して見積もられたインサートの平均長に基づいて記入します。この情報は全ゲノムアセンブリなどの実験にとって重要です。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Any;TRACE_TYPE_CODE=WGS
STRATEGY=Any;
TRACE_TYPE_CODE=WCS
STRATEGY=cDNA;TRACE_TYPE_CODE=CLONEEND
STRATEGY=CLONEEND;TRACE_TYPE_CODE=CLONEEND

INSERT_STDEV *

INSERT_SIZE の標準偏差

Type: int
Example: 200

INSERT_STDEVはインサート長の標準偏差です。この値は概算値です。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Any;TRACE_TYPE_CODE=WGS
STRATEGY=Any;
TRACE_TYPE_CODE=WCS
STRATEGY=cDNA;TRACE_TYPE_CODE=CLONEEND
STRATEGY=CLONEEND;TRACE_TYPE_CODE=CLONEEND

LATITUDE *

サンプル採取地点の緯度 (standard GPS notation に基づく)

Type: float
Example: 54.736

環境サンプルの取得地点の緯度。緯度の範囲は　[-90,90] で，赤道を 0 とし，赤道より北を正の値で，南を負の値で表します。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Env Sample-Geo;TRACE_TYPE_CODE=Any

LIBRARY_ID *

CLONE_ID に記載されたクローンのソースライブラリー

Type: varchar(100)
Example: RP23

LIBRARY_ID にはクローンのソースライブラリーを記載します。多くのゲノムライブラリーはClone Registry (http://www.ncbi.nlm.nih.gov/clone)に既に登録されており，これらのライブラリーについてはstandard nomenclature (http://www.ncbi.nlm.nih.gov/clone/content/overview/)に従った名称を使用します。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=cDNA;TRACE_TYPE_CODE=Any
STRATEGY=EST;TRACE_TYPE_CODE=Any
STRATEGY=CLONEEND;TRACE_TYPE_CODE=CLONEEND
STRATEGY=CLONE;TRACE_TYPE_CODE=Any
STRATEGY=ENCODE;TRACE_TYPE_CODE=SHOTGUN;PrimerWalk; CLONEEND

LONGITUDE *

サンプル採取地点の経度 (standard GPS notation に基づく)

Type: float
Example: -86.403

環境サンプルデータの取得地点の経度。グリニッジ子午線を 0° として，子午線よりも東は +180°，西は -180° です。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Env Sample-Geo; TRACE_TYPE_CODE=Any

LO_FILTER_SIZE

環境サンプルを分取したフィルターで一番小さいサイズ

Type: varchar(50)
Example: 25 micron

LO_FILTER_SIZEは環境サンプルでのみ記載可能ですが必須ではありません。

NCBI_PROJECT_ID

INSDC によって管理されている BioProject ID

Type: int
Example: 7

NCBI_PROJECT_IDは trace と BioProject database を結びつけ，プロジェクト単位でのデータ取得を可能にします。シークエンス拠点はゲノム配列データを登録する前に DDBJ BioProject にプロジェクトを登録することができます。プロジェクト登録の時点で配列データを登録する必要はありません。

ORGANISM_NAME *

BARCODE プロジェクトにおいて trace が由来する生物種名

Type: varchar(100)
Example: Acanthocybium solandri

ORGANISM_NAMEは BARCODE データにおいてリードを生物種ごとに分類するのに使われます。生物種名はTaxonomy Browser に従って記載します。全ての BARCODE データではSPECIES_CODE=”BARCODESPECIES” になります。STRATEGY=BARCODE の場合に必須です。

PEAK_FILE

peak value が記載されたファイル

Type: varchar(200)
Example: ./mytraces/123clone.peak 説明については

BASE_FILEをご覧ください。

PH

環境サンプルが採取された場所の pH

Type: float
Example: 7.2

PHは環境サンプルでのみ記載可能ですが必須ではありません。

PICK_GROUP_ID: 同じ時に取得された trace をまとめる ID
Type: int
Example: 939065

PLACE_NAME

生物学的サンプルが得られた地点の国名 and/or 一般に通用する名称

Type: varchar(250)
Example: Octopus

Springs PLACE_NAMEは環境サンプルでのみ記載可能ですが必須ではありません。

PLATE_ID

登録者が付けたプレート ID

Type: varchar(32)
Example: 203

PLATE_IDとWELL_IDはシークエンステンプレートが保存された場所を指し示します(CLONE_ID に記載されたクローンの保存場所ではありません)。この情報はこぼれたり何かが混入したプレートを同定するのに役立ちます。プレートを使用しない実験の場合は ‘0’ を記入します。

POPULATION_ID

登録者が trace (もしくは trace のグループ) が由来する population に付けた ID

Type: varchar(100)
Example: CEPH

POPULATION_IDは集団を特定するのに使われます。この情報は population study (通常 STRATEGY=SNP)　で使用されます。

PREP_GROUP_ID: 同じ時に調整された trace をまとめる ID
Type:varchar(30)
Example: A2

PRIMER

シークエンス反応で使われたプライマー配列

Type: varchar(200)
Example:GAATACCTACGATCGCC

PRIMERにはシークエンスプライマーの塩基配列を記入します。センターが多種類のプライマーを使っている場合はPRIMER_CODE に primer code のリストを記載します。

PRIMER_CODE: シークエンスプライマーに対するコード
Type: varchar(30)
Example: Sp6

PRIMER_LIST *

マッピング実験 (例 AFLP) で使われた ‘;’ で区切られたプライマーのリスト

Type: varchar(100)
Example:AAGGTCTGCGCGTGTC;AGCTGCGTACGTAATCG;

この項目はSTRATEGY=”AFLP” と TRACE_TYPE_CODE=”PCR” の組み合わせのときに必須です。

PROGRAM_ID *

trace ファイルを作成するのに使われたプログラム

Type: varchar(100)
Example: phred-19990722h

ベースコールに使われたプログラムをフリーテキストで記載します。プログラムの名前，バージョン番号や日付はとても有用です。
例:

phred-19980904e
abi-3.1
ATQA
TraceTuner
Licor
Megabase
Beckman

PROJECT_NAME

異なるセンターからの trace をまとめる共通したプロジェクト名

Type: varchar(50)
Example: New

Project シークエンス拠点は共通したプロジェクト名を用いることで，あるプロジェクトから産みだされる全ての trace をグループ化することができます。記載可能なプロジェクト名は制限されています。この項目を利用する場合は事前に DDBJ Trace Archive に連絡し，全てのプロジェクト参加者が同意しているプロジェクト名を伝えます。

QUAL_FILE

quality score を含んだファイル

Type: varchar(200)
Example: ./mytraces/123clone.fasta.qs

trace ファイルが quality score を含んでいない場合，quality score が含まれた別のファイルを登録します。QUAL_FILE でファイルを指定します。trace (通常は scf) ファイル中の quality score は QUAL_FILE のもので上書きされます。QUAL_FILE と trace ファイルの quality score が同じ場合は QUAL_FILE を登録しないでください。BASE_FILE とQUAL_FILE の両方を登録する場合は，あわせて peak index 情報をPEAK_FILE として別ファイルで登録します。

REFERENCE_ACCESSION *

リシークエンスプロジェクトで使用されるリファレンス配列のアクセッション番号 (配列を特定するためにバージョン番号も併記します)。 Comparative study の場合はプライマーデザインの情報も付け加えます。

Type: varchar(50)
Example: NT_029829.1

次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Re-sequencing;Comparative TRACE_TYPE_CODE=Any

REFERENCE_ACC_MAX *

リシークエンスや比較ゲノム解析における amplicon の終了位置

Type: int
Example: 30929

この項目は[REFERENCE_ACCESSIOxx(#REFERENCE_ACCESSION)の accession.versionで特定されたリファレンス配列の終端の座標を記入します。スタートを (０ではなく) １とした塩基対座標で記入します。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Re-sequencing; TRACE_TYPE_CODE=SHOTGUN; PCR;RT-PCR

REFERENCE_ACC_MIN *

リシークエンスや比較ゲノム解析における amplicon の開始位置

Type: int
Example: 29829

この項目はREFERENCE_ACCESSIONの accession.versionで特定されたリファレンス配列の開始座標を記入します。スタートを (０ではなく) １とした塩基対座標で記入します。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Re-sequencing; TRACE_TYPE_CODE=SHOTGUN; PCR;RT-PCR

REFERENCE_OFFSET *

リシークエンス解析でスタートの位置を決める REFERENCE_ACCESSION　で指定された配列におけるオフセット値

Type: int
Example: 1520899

この項目はREFERENCE_ACCESSIONの accession.versionで特定されたリファレンス配列の終端の座標を記入します。スタートを (０ではなく) １とした塩基対座標で記入します。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Re-sequencing; TRACE_TYPE_CODE=CHIP

REFERENCE_SET_MAX

リシークエンスされた領域全体の終了位置。この領域は複数の amplicon を含むことがあります

Type: int
Example: 29829

この項目にはREFERENCE_ACCESSIONの accession.versionで指定されたリシークエンスされた領域全体の終了位置を記入します。スタートを (０ではなく) １とした塩基対座標で記入します。 REFERENCE_ACC_[MIN|MAX] と REFERENCE_SET_[MIN|MAX]のセットは同じ REFERENCE_ACC を参照する必要があります。

REFERENCE_SET_MIN

リシークエンスされた領域全体の開始位置。この領域は複数の amplicon を含むことがあります

Type: int
Example: 29829

この項目にはREFERENCE_ACCESSIONの accession.versionで指定されたリシークエンスされた領域全体の開始位置を記入します。スタートを (０ではなく) １とした塩基対座標で記入します。REFERENCE_ACC_[MIN|MAX] と REFERENCE_SET_[MIN|MAX]のセットは同じ REFERENCE_ACC を参照する必要があります。

RUN_DATE: シークエンス反応が行われた日付
Type: datetime
Example: 2000-10-28

RUN_GROUP_ID: 同じシークエンサーでランされた trace につける ID
Type: varchar(30)
Example: group2

RUN_LANE: trace のレーン，もしくはキャピラリ
Type: int
Example: 1
RUN_LANEには trace が得られたレーンやキャピラリを記入します。

RUN_MACHINE_ID: trace が得られたシークエンサーの ID
Type: varchar(30)
Example: machine2

RUN_MACHINE_TYPE: trace が得られたシークエンサーのモデル名
Type: varchar(30)
Example: ABI 310

SALINITY: 環境サンプルが採取された場所の千分率で表された塩濃度
Type: float
Example: 20
SALINITYは環境サンプルでのみ記載可能ですが必須ではありません。

SEQ_LIB_ID *

シークエンスに使用された M13/PUC ライブラリー

Type: varchar(255)
Example: 22194

シークエンスに用いられた M13/PUC ベースのクローンに対してセンターが独自に付けた ID を記入します。この ID で trace を ligation event でまとめることができるようになります。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Any;TRACE_TYPE_CODE=SHOTGUN
STRATEGY=Any;TRACE_TYPE_CODE=WGS/WCS

SOURCE_TYPE *

DNA のソース

Type: varchar(50)
Example: GENOMIC DNA

SOURCE_TYPEに記載可能なコードとその説明は以下です:

G=Genomic DNA (ゲノム DNA からの PCR 産物を含む)
N=Non Genomic DNA (EST, cDNA, RT-PCR, screenedlibraries)
VIRAL RNA=Viral RNA
SYNTHETIC=Synthetic DNA

記載可能なコードは G，N，GENOMIC，NON GENOMIC，VIRAL RNA，SYNTHETIC です。

SPECIES_CODE *

trace が得られた生物種

Type: varchar(100)
Example: Homo sapiens

SPECIES_CODEは分類学上の生物種名でリードを分類するのに使われます。この項目はコントロールされています。
Trace Archive に含まれている生物種名のリスト:http://www.ncbi.nlm.nih.gov/Traces/trace.cgi?cmd=stat&f=xml_list_species&m=obtain&s=speciesリストに含まれていない生物を登録する場合は，データを投稿する前に DDBJ Trace Archive に連絡します。trace が由来する生物を分類できない場合は，環境サンプルには ‘ENVIRONMENTAL SEQUENCE’ を人工物には ‘ARTIFICIAL SEQUENCE’ を使用することができます。

STRAIN *

trace が由来する strain

Type: varchar(50)
Example: C57BL/6J

STRATEGY=”SNP” のときに必須です。

STRATEGY *

実験的な strategy

Type: varchar(50)
Example: MODEL VERIFY

trace を得る上で採用された実験上の STRATEGY。値はコントロールされていますが，登録者はリストへの新しい用語の追加を申請することができます。

記載可能な用語 (このリストは拡張され続けています):

AFLP: Amplified Fragment Length Polymorphism
BARCODE: DNA sequence analysis of a uniform target gene toenable species identification
CCS: Concatenated cDNA sequencing
cDNA: Sequences generated in the process of sequencing cDNAclones
CF-S: Cot-filtered single/low-copy genomic DNA
CF-M: Cot-filtered moderately repetitive genomic DNA
CF-H: Cot-filtered highly repetitive genomic DNA
CF-T: Cot-filtered theoretical single-copy DNA
CLONE: Genomic clone based (hierarchical) sequencing
CLONEEND: Sequences generated from the end of a clone(BAC/PAC/Fosmid or cDNA)
Comparative: Sequences obtained using primers design fromrelated species
CTS: Concatenated Tag Sequencing
Env Sample-GEO: Geographically generated environmentalsample
Env Sample-Host: Environmental samples collected from aspecific host
EST: single pass sequencing of cDNA templates
FINISHING: a read specifically made for finishing, could beeither BAC finishing or Whole Genome Assembly (WGA) finishing
MODEL VERIFY: Sequences obtained to verify proposed genemodels
PoolClone: Pools of clones (BACs mostly)
SNP: Reads used for SNP identification
TARGETED LOCUS: Sequences obtained from templates generated byprimers designed to amplify a specific genetic locus
Re-sequencing: Re-sequencing of targeted genomic regions
RT-PCR: Sequences obtained using templates generated by ReverseTranscriptase Polymerase Chain Reaction
WGA: Whole Genome Assembly

SUBMISSION_TYPE *

submission の種類

Type: varchar(50)
Example: NEW

記載可能な値:

NEW: 新しいデータを登録するとき
UPDATE:trace とメタデータを更新するとき。以前のデータは TI とともに保存され，更新された trace には新しい TI が付与され active になります。
UPDATEINFO:登録済みの trace を変えることなくメタデータのみを更新するとき
WITHDRAW:trace を withdraw するとき

SVECTOR_ACCESSION: シークエンスベクターの DDBJ/EMBL/GenBank アクセッション番号
Type: varchar(50)
Example: X52325

SVECTOR_CODE: センターが独自にシークエンスベクターに付けたコード
Type: varchar(50)
Example: pBluescript SK(+)

TEMPERATURE

環境サンプルが採取された地点の温度 (^oC)

Type: float
Example: 30

TEMPERATUREは環境サンプルでのみ記載可能ですが必須ではありません。

TEMPLATE_ID

登録者がシークエンスしたテンプレートに付けた ID

Type: varchar(50)
Example: HBBBA2211

TEMPLATE_IDは実際にシークエンスされたテンプレートを同定するのに使われます。この情報と TRACE_END を組み合わせ，ある２つの trace が同じクローンの両側から得られた ‘mate_pairs’ かどうか判断しています。

TRACE_END

リードに含まれるテンプレートの向き

Type: varchar(50)
Example: F

TRACE_END は以下の値を持てます:

F: FORWARD
R: REVERSE
N: UNKNOWN

TRACE_FILE *: ルートからの trace ファイルまでの絶対パス
Type: varchar(200)
Example: ./traces/TRACE001.scf

TRACE_FORMAT *

trace のファイル形式

Type: varchar(20)
Example: scf

TRACE_FORMATは以下の値を持てます:

SCF - DNA シークエンス装置から出力される標準的なフォーマット
ABI - ABI-tracefile は trace データと塩基配列を含むバイナリーファイルです

TRACE_NAME *

登録者が trace に付ける名前

Type: varchar(250)
Example: HBBBA1U2211

TRACE_NAMEはセンター単位でユニークであればよく，センター間でユニークである必要はありません。Trace Archive では TRACE_NAME と CENTER_NAME の組み合わせがユニークなキーとして働きます。

TRACE_TYPE_CODE *

trace が取得されたシークエンス strategy

Type: varchar(50)
Example: wgs

TRACE_TYPE_CODE には trace を得るのに使われたシークエンス strategy を記入します。

取り得る値:

CHIP: Sequences obtained using microarrays (also called DNAchips or gene chips)
CLONEEND: Sequences generated from the end of a large insert(BAC/PAC/Fosmid) or cDNA clone
EST: Single Pass Expressed Sequence Tag
HTP SELEX: High throughput SELEX
OTHER: Other than PCR, PrimerWalk, SHOTGUN or TRANSPOSON forFINISHING STRATEGY
PCR: Sequences obtained using templates generated by genomicPolymerase Chain Reaction
PrimerWalk: Sequences generated through a primer walkingstep
RT-PCR: Sequences obtained using templates generated by ReverseTranscriptase Polymerase Chain Reaction
SHOTGUN: Shotgun sequencing of clones (genomic or cDNA)
TRANSPOSON: Sequences obtained using templates generated bytransposons
WCS: Whole Chromosome Shotgun
WGS: Whole Genome Shotgun

TRANSPOSON_ACC *

シークエンステンプレートを生成するのに使われたトランスポゾンの DDBJ/EMBL/GenBank アクセッション番号

Type: varchar(50)
Example: X00913

次の STRATEGY と TRACE_TYPE_CODE の組み合わせの時に必須です: STRATEGY=Any;TRACE_TYPE_CODE=TRANSPOSON

TRANSPOSON_CODE *

シークエンステンプレートを生成するのに使われたトランスポゾンにセンターが付けたコード

Type: varchar(50)
Example: Mu transposon

次の STRATEGY と TRACE_TYPE_CODE の組み合わせの時に必須です: STRATEGY=Any;TRACE_TYPE_CODE=TRANSPOSON

WELL_ID

シークエンス反応が行われたウェルにセンターが付けた ID

Type: varchar(50)
Example: A1

WELL_ID は PLATE_ID と一緒にシークエンス反応が行われた場所を特定するのに利用されます (WELL_ID も参照)。通常シークエンス反応は標準的な 96 もしくは 384 穴プレートで行われます (下の標準的なウェルの配置図を参照)。

標準的な 96 穴プレートの配置

標準的な 384 穴プレートの配置

Internal Fields List

BASECALL_LENGTH: trace の塩基長
Type: int
Example: 396

BASES_20

quality score が 20 を超える塩基数

Type: smallint
Example: 50

注意:quality score がない登録がいくつか存在します。これは ABI ファイルだけが登録され， quality call が別ファイルで登録されなかったためです。

BASES_40

quality score が 40 を超える塩基数

Type: smallint
Example: 50

注意:quality score がない登録がいくつか存在します。これは ABI ファイルだけが登録され， quality call が別ファイルで登録されなかったためです。

BASES_60

quality score が 60 を超える塩基数

Type: smallint
Example: 50

注意:quality score がない登録がいくつか存在します。これは ABI ファイルだけが登録され， quality call が別ファイルで登録されなかったためです。

LOAD_DATE: データがロードされた日付
Type: smalldatetime
Example: Jan 8 2001 11:59AM

MATE_PAIR

同じテンプレートの逆方向から得られたリードの TI 番号

Type: int
Example: 203682255 MATE PAIR

は同じテンプレートの両方向 (FORWARD と REVERSE) から得られたリード。

REPLACED_BY

“active” な TI を置き換えた TI

Type: int
Example: 304753779

この項目は最新のデータセットを指し示します。trace が更新された場合REPLACED_BY は新しいTIが入力されます。メタデータのみが更新された場合は replaced_by=0 で表示されません。

STATE

trace の status

Type: varchar
Example: active

取り得る値:

active
updated
withdrawn

TAXID

NCBI Taxonomy ID

Type: int
Example: 10090

DDBJ Trace Archive と NCBI Taxonomy Browser とを結びつけます。

TI

trace 固有のアクセッション番号

Type: int
Example: 304753779

trace がデータベースにロードされた時点で TI が付与されます。どのようなレコードでも TI で取得できます。

UPDATE_DATE

データが update/replace された日時

Type: smalldatetime
Example: Jul 19 2001 3:48PM

最後に更新された日時が記録されます。

trace データの登録

ヒトを対象とした研究データの登録について
ヒトを対象とした全ての研究において DDBJ に送付するデータの由来である個人 (被験者) の情報・プライバシーは，適用されるべき法律，規定，登録者が所属している機関の方針に従い，登録者の責任において保護されている必要があります。
原則として，被験者を直接特定し得る参照情報は，登録データから取り除いてください。
ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」をご覧ください。

TI 番号

DDBJ Trace Archive (DTA) への登録にはメタデータと trace ファイルが必要です。ユニークなアクセッション番号 (TI 番号) は trace データが NCBI Trace Archive に登録されるときに割り振られます。 TI 番号が発行されたデータは即日公開されます。

TI 番号発行後，データは即日公開されます。

登録に必要なファイル

テキストファイル (TRACEINFO ファイル) に trace データに関するメタデータを記述し，trace ファイルの場所を指定します。トップディレクトリを作成し，全てのメタデータファイルをトップディレクトリ下に配置します。また trace ファイルは，トップディレクトリ下に１つ以上のディレクトリを作成し，その内に配置します。 trace ファイル (SCF，ABI フォーマットのどちらの場合も) はトップレベルではなく，サブディレクトリのなかに配置されている必要があります。サブディレクトリ名は trace やプロジェクトの名前を使うことを推奨します。さらにサブディレクトリを作成し trace をグループに分けることができます。

以下は登録ディレクトリの構成例です。

登録ディレクトリの構成例

TOP_DIRECTORY/
TOP_DIRECTORY/TRACEINFO
TOP_DIRECTORY/traces
TOP_DIRECTORY/traces/FLJ/
TOP_DIRECTORY/traces/FLJ/FLJA1U0001.scf
TOP_DIRECTORY/traces/FLJ/FLJA1U0002.scf
TOP_DIRECTORY/traces/FLJ/FLJA1U0003.scf

メタデータファイルは XML かタブ区切りテキストファイル形式にします。 STRATEGY と TRACE_TYPE_CODE の組み合わせで必須になるメタデータ項目一覧は Validation Table をご覧ください。どちらの形式のメタデータでも最初に共通項目のセクションを含めることができます。このセクションには各 trace に共通する項目を記載します。

以下は TRACEINFO メタデータファイルの例です。

TRACEINFO xml ファイルの例

<?xml version="1.0"?>
<trace_volume>
   <common_fields>
      <center_name>CENTER NAME ACRONYM IS HERE</center_name>
      <center_project>FLJ</center_project>
      <source_type>N</source_type>
      <species_code>HOMO SAPIENS</species_code>
      <strategy>EST</strategy>
      <submission_type>NEW</submission_type>
      <trace_format>SCF</trace_format>
      <trace_type_code>EST</trace_type_code>
   </common_fields>
   <trace>
      <trace_name>F-3NB691000020</trace_name>
      <trace_file>./traces/F-3NB691000020.scf</trace_file>
      <clone_id>3NB691000020</clone_id>
      <library_id>3NB691</library_id>
      <template_id>3NB691000020</template_id>
   </trace>
   <trace>
      <trace_name>F-3NB691000033</trace_name>
      <trace_file>./traces/F-3NB691000033.scf</trace_file>
      <clone_id>3NB691000033</clone_id>
      <library_id>3NB691</library_id>
      <template_id>3NB691000033</template_id>
   </trace>
     --- more information ---
</trace_volume>

TRACEINFO タブ区切りテキストファイルの例

center_name = CENTER NAME ACRONYM IS HERE
center_project = FLJ
source_type = N
species_code = HOMO SAPIENS
strategy = EST
submission_type = NEW
trace_format = SCF
trace_type_code = EST
trace_name  clone_id    library_id  template_id trace_file
F-3NB691000020  3NB691000020    3NB691  3NB691000020    ./traces/F-3NB691000020.scf
F-3NB691000033  3NB691000033    3NB691  3NB691000033    ./traces/F-3NB691000033.scf
--- more information ---

アカウントの取得

DDBJ 登録用アカウントを取得します。

登録用ファイルのアップロード

DTA チームに連絡し，登録用ディレクトリの作成を依頼します。マニュアルに従いファイルを SCP で転送します。

登録ディレクトリの例

submission/submitter_id/dta/dta_submitter_id-0001

DTA の登録用ディレクトリは DDBJ Sequence Read Archive とは別になります。

登録の完了

登録の完了後，登録者が公開を指示するまで DTA はデータを非公開にします。データ公開の指示があれば DTA は NCBI Trace Archive にデータをアップロードします。データが NCBI Trace Archive にロードされると TI 番号が発行されデータは公開されます。

TI 番号の発行とデータ公開は同時になります。

データの更新

データを更新するときは DTA チームまでご連絡ください。