Trace Archive

    Trace Archive の概要

    DDBJ Trace Archive (DTA) は,配列決定プロジェクトからのシングルパスリードの DNA sequence chromatograms (traces), base calls, quality estimates のためのデータベースです。 Trace Archive は International Nucleotide Sequence Database Collaboration (INSDC) のメンバーとして,DDBJ,NCBIEBI が国際協力して運営しています。NCBI Trace Archive が ID を発行管理しています。

    DTA から登録された trace データは NCBI Trace Archive で検索,取得することができます。

    trace データは DDBJ Sequence Read Archive で受付けています。特に理由がない限り DRA に登録してください。

    メタデータ

    必要な項目は STRATEGYTRACE_TYPE_CODE の組み合わせで決まります。 メタデータは NCBI Trace Archive で検索することができます。

    必須項目は Validation Table で確認してください。

    必須*
    STRATEGY と TRACE_TYPE_CODE の組み合わせによっては必須 *

    Metadata Field List

    ACCESSION
    DDBJ/EMBL/GenBank アクセッション番号 Type: varchar(30) Example: AC22227 は配列データを配列データベース (DDBJ/EMBL/GenBank) に登録することで割り振られます。いくつかの種類の trace (特に WGS) では記載できません。アクセッション番号により Trace Archive の1次配列データと配列データベースの2次配列データが結び付きます。
    AMPLIFICATION_FORWARD*
    テンプレートの増幅用フォワードプライマーの塩基配列 Type: varchar(100) Example: GGATTCTGACTAACGAGC 配列決定のために用いられたテンプレート増幅用プライマーの配列を記載します。次の場合に必須です:=PCR or RT-PCR。
    AMPLIFICATION_REVERSE*
    テンプレートの増幅用リバースプライマーの塩基配列 Type: varchar(100) Example: GGATTCTGACTAACGAGC 配列決定のために用いられたテンプレート増幅用プライマーの配列を記載します。次の場合に必須です:=PCR or RT-PCR。
    AMPLIFICATION_SIZE
    プライマーペアによる増幅断片長 Type: int Example: 500 にはのプライマーペアによって増幅される断片の長さを塩基対数で記載します。=PCR の場合はゲノム DNA,=RT-PCR の場合は転写産物を増幅した断片長になります。
    ANONYMIZED_ID
    個人に対する匿名化された ID Type: varchar(100) Example: 2222anonym ドナーの匿名性を保護するプロジェクトで使用します。多くの場合 Trace Archive の匿名化された ID と表現型情報が得られた個人の ID とを結びつけるアクセスが制限されたデータベースが存在します。
    ATTEMPT
    センターによって試みられたプロジェクトの回数 and/or Trace Archive への登録回数 Type: tinyint(1-255) Example: 2
    BASE_FILE
    ベースコールが記載されたファイル名 Type: varchar(200) Example: ./mytraces/123clone.fasta trace ファイルがベースコールを含んでいない場合,ベースコールが含まれた別のファイルを登録します。 でファイルを指定します。trace (通常は scf) ファイル中のベースコール情報は のもので上書きされます。 と trace ファイルのベースコールが同じ場合は BASE_FILE を登録しないでください。 の両方を登録する場合は,あわせて peak index 情報を として別ファイルで登録します。
    CENTER_NAME*
    センター名の略称 Type: varchar(50) Example: WUGSC DDBJ Trace Archive にデータを登録する前にセンター名の略称を登録します。この略称は で使われます。登録されている の一覧: http://www.ncbi.nlm.nih.gov/Traces/trace.cgi?view=submitting_centers

    Sequence Read Archive の center name とは別になります。

    CENTER_PROJECT*
    センター独自のプロジェクト名 Type: varchar(100) Example: HBBB はシークエンスセンター内部で使用するプロジェクト名です。この項目は関連する trace をまとめるのに役立ちます。
    CHEMISTRY
    シークエンス反応で使われたケミストリー Type: varchar(50) Example: BIGDYEV3.0
    CHEMISTRY_TYPE
    シークエンス反応で使われたケミストリーの種類 Type: char(50) Example: P で使用可能な語句:
    Primer
    Terminator
    p=primer
    t=terminator
    CHROMOSOME
    trace が由来する染色体 Type: varchar(8) Example: 11 は trace が由来する染色体を示します。遺伝子名や cytogenetic position は染色体情報としては適していません。
    CLIP_QUALITY_LEFT
    信頼性評価に基づくリードの左クリップ位置 (塩基対数) Type: int Example: 56 は信頼性が低いためクリップされるべきリードの始まりの部分です。ベースコールの信頼性が高い領域をその最初の塩基位置で示します。
    CLIP_QUALITY_RIGHT
    信頼性評価に基づくリードの右クリップ位置 (塩基対数) Type: int Example: 256 は信頼性が低いためクリップされるべきリードの終わりの部分です。ベースコールの信頼性が高い領域をその最後の塩基位置で示します。
    CLIP_VECTOR_LEFT*
    ベクター配列に基づくリードの左クリップ位置 (塩基対数) Type: int Example: 75 はベクター配列に基づきクリップされるべきリードの始まりの部分です。非ベクター配列の最初の塩基の位置で示します。この項目はほとんど全ての の組み合わせで必須です。
    この情報は が記載されている場合,もしくは,=PCR orRT-PCR の場合には省略できます。
    CLIP_VECTOR_RIGHT*
    ベクター配列に基づくリードの右クリップ位置 (塩基対数) Type: int Example: 275 はベクター配列に基づきクリップされるべきリードの終わりの部分です。非ベクター配列の最後の塩基の位置で示します。この項目はほとんど全ての の組み合わせで必須です。
    この情報は が記載されている場合,もしくは,=PCR or RT-PCR の場合には省略できます。
    注意: 多くのセンターではベクター配列解析と信頼性評価を一緒に行っており,1セットのクリップ情報しかない場合があります。この場合は に値を記入します。
    CLONE_ID*
    trace が由来するクローン名 Type: varchar(30) Example: RP23-1123F10 は個々の BAC,PAC や cDNA クローンの ID です。クローンが Clone Registry (http://www.ncbi.nlm.nih.gov/clone/) に登録されている場合はstandard clone registry nomenclature (http://www.ncbi.nlm.nih.gov/clone/content/overview/)に従って記載します。
    次の の組み合わせで必須です:
    =cDNA;=Any
    =EST;=Any
    =CLONEEND;=CLONEEND
    =CLONE;=Any
    =ENCODE;=SHOTGUN;PrimerWalk; CLONEEND
    =FINISHING;=Any
    CLONE_ID_LIST*
    セミコロンで区切られたクローンのリスト (Strategy が PoolClone の場合) Type: varchar(30) Example: RP23-200A2;RP23-500P1 =PoolClone の場合にのみ必須です。この場合はセミコロンで区切ったクローンのリストを記載します。クローンが Clone Registry (http://www.ncbi.nlm.nih.gov/clone/) に登録されている場合は standard cloneregistry nomenclature (http://www.ncbi.nlm.nih.gov/clone/content/overview/) に従って記載します。
    注意:リストに含まれるクローン数に制限はありませんが,個々のクローンのサイズは 30 バイトに制限されています。
    次の の組み合わせで必須です:
    =PoolClone;=Any
    COLLECTION_DATE*
    環境サンプルが採取された日時 (例 Mar 2 2006 12:00AM) Type: datetime Example: Mar 2 2006 12:00AM は環境サンプルが採取された日時を示します。
    次の の組み合わせで必須です:
    =Env Sample-Geo; =Any=Env Sample-Host; =Any
    CVECTOR_ACCESSION
    クローニングベクター配列の DDBJ/EMBL/GenBank アクセッション番号 Type: varchar(50) Example: AY451994 は使用されたクローニングベクターのアクセッション番号です。この番号は に記入されたベクターに対応します。
    CVECTOR_CODE
    センターがクローニングベクターに付けたコード Type: varchar(50) Example: PBACE3.6 には登録者がクローニングベクターに付けたコードを記入します。使われた全てのクローニングベクターの配列は DDBJ/EMBL/GenBank に登録することが推奨されます。
    DEPTH
    環境サンプルが採取された深度 (メーター) Type: float Example: 10M は水圏や土壌から採取された環境サンプルで記載できます。この値が NULL のときはサンプルが環境の表面から採取されたものとみなされます。この項目は環境サンプルにのみ記載可能ですが必須ではありません。
    ELEVATION
    環境サンプルが採取された高度 (メーター) Type: float Example: 500 この値が NULL のときはサンプルは海水位で取得されたものとみなされます。この項目はいくつかの環境サンプルでのみ記載可能ですが必須ではありません。
    ENVIRONMENT_TYPE*
    環境サンプルが採取された環境の種類 Type: varchar(250) Example: sea water では環境サンプルが取得された環境の種類を記載します。で地理上の位置を示せますが,ある位置には多くの環境が存在し得ます (土壌,泥,木の根など)。
    次の の組み合わせで必須です:
    =PoolClone;=Any
    =Env Sample-Geo; =Any
    EXTENDED_DATA
    EXTENDED_DATA block 中の <field> タグのなかに記載された任意の追加情報 Type: varchar() Example:
    <extended_data>
        <field name='SamplingSiteMonthChlorophyllLevel'>1.4 mg_mm</field>
        <field name='SamplingSiteYearlyChlorophyllLevel'>1.12 mg_mm</field>
        <field name='SamplingSiteYearlyChlorophyllLevelStdError'>0.19 mg_mm</field>
    </extended_data>
    '=' と区切り文字の '|' は name とその値には使用できません。これらの記号の混入以外はチェックされません。
    FEATURE_ID_FILE
    チップ上の feature とその位置を記載したファイル Type: varchar(200) Example: ./mytraces/chip2.cdf ="CHIP"のとき でチップ上の feature の位置と配列を記載したファイルを指定します。
    FEATURE_ID_FILE_NAME*
    共通の FEATURE_ID_FILE (先に登録します) へのリファレンス Type: varchar(200) Example: この項目は ="CHIP" のときに必須です。
    FEATURE_SIGNAL_FILE
    チップ上の feature のシグナルと分散が記載されたファイル Type: varchar(200) Example: ./mytraces/chip2.signal ="CHIP"のときにチップ上の feature のシグナルと分散が記載されたファイルを で指定します。
    FEATURE_SIGNAL_FILE_NAME*
    共通の FEATURE_SIGNAL_FILE (先に登録します) へのリファレンス Type: varchar(200) Example: この項目は ="CHIP" のときに必須です。
    GENE_NAME
    遺伝子名や遺伝子の ID Type: varchar(100) Example: transporter 1 フリーテキスト。主に ='Re-sequencing' or'ENCODE' のときに使われます。研究対象の遺伝子を遺伝子名や何らかの ID で参照します。
    HI_FILTER_SIZE
    環境サンプルを分取したフィルターで一番大きいサイズ Type: varchar(50) Example: 50 micron は環境サンプルでのみ記載可能ですが必須ではありません。
    HOST_CONDITION
    環境サンプルが採取されたホストの状態 Type: varchar(100) Example: HIV-positive は環境サンプルでのみ記載可能でホストのコンディション (healthy, sick など) を記載します。
    HOST_ID*
    環境サンプルが取得されたホストに付けられた固有の ID Type: varchar(100) Example: yerkes pedigree #C0479 'Clint' は環境サンプルでのみ記載可能でホストを特定するのに利用されます。
    次の の組み合わせで必須です:
    =Env Sample-Host; =Any
    HOST_LOCATION*
    環境サンプルが採取されたホスト上の特定の場所 Type: varchar(100) Example: rumen には環境サンプルが採取されたホスト上の特定の場所,例えば dental plaque,hindgut,root surfaces を記載します。
    次の の組み合わせで必須です:
    =Env Sample-Host; =Any
    HOST_SPECIES*
    環境サンプルが採取されたホスト Type: varchar(100) Example: Pan troglodytes は環境サンプルでのみ記載可能です。
    次の の組み合わせで必須です:
    =Env Sample-Host; =Any
    INDIVIDUAL_ID
    trace が由来する個人やサンプルの ID Type: varchar(100) Example: NA12345 は trace と個人とを結び付けるセンター独自の ID です。この項目は主に population を対象とした研究で使用します。
    INSERT_FLANK_LEFT*
    クローニング部位の左に隣接する塩基配列 Type: varchar(100) Example: AAGGTGCGATGCAGTGGCAGTAGCAGTGTCGACGTGACGATTCGTCCGGA ではクローニング部位の左に隣接するリンカーを含む塩基配列 (50-100 塩基) を記入します。この情報によりユーザは独自にベクターをトリミングすることができます。この項目はほとんど全ての で必須です。この項目は がある場合には省略できますが, への記入を推奨しています。クローニングステップがない場合は 'NONE' と記入します。
    INSERT_FLANK_RIGHT*
    クローニング部位の右に隣接する塩基配列 Type: varchar(100) Example: AAGGCGCGATGCAGTGAGCGAGGCTGACGTCGGCTAGCGTCGCGTCGGGT ではクローニング部位の右に隣接するリンカーを含む塩基配列 (50-100 塩基) を記入します。この情報によりユーザは独自にベクターをトリミングすることができます。この項目はほとんど全ての で必須です。この項目は がある場合には省略できますが, への記入を推奨しています。クローニングステップがない場合は 'NONE' と記入します。
    INSERT_SIZE*
    インサートの平均塩基配列長 (TEMPLATE_ID の値で参照されます) Type: int Example: 2000 は配列決定されるクローンの期待されるインサート長を示します。あるライブラリーに対して見積もられたインサートの平均長に基づいて記入します。この情報は全ゲノムアセンブリなどの実験にとって重要です。
    次の の組み合わせで必須です:
    =Any;=WGS
    =Any;
    =WCS
    =cDNA;=CLONEEND
    =CLONEEND;=CLONEEND
    INSERT_STDEV*
    INSERT_SIZE の標準偏差 Type: int Example: 200 はインサート長の標準偏差です。この値は概算値です。
    次の の組み合わせで必須です:
    =Any;=WGS
    =Any;
    =WCS
    =cDNA;=CLONEEND
    =CLONEEND;=CLONEEND
    LATITUDE*
    サンプル採取地点の緯度 (standard GPS notation に基づく) Type: float Example: 54.736 環境サンプルの取得地点の緯度。緯度の範囲は [-90,90] で,赤道を 0 とし,赤道より北を正の値で,南を負の値で表します。
    次の の組み合わせで必須です:
    =Env Sample-Geo;=Any
    LIBRARY_ID*
    CLONE_ID に記載されたクローンのソースライブラリー Type: varchar(100) Example: RP23 にはクローンのソースライブラリーを記載します。多くのゲノムライブラリーはClone Registry (http://www.ncbi.nlm.nih.gov/clone)に既に登録されており,これらのライブラリーについてはstandard nomenclature (http://www.ncbi.nlm.nih.gov/clone/content/overview/)に従った名称を使用します。
    次の の組み合わせで必須です:
    =cDNA;=Any
    =EST;=Any
    =CLONEEND;=CLONEEND
    =CLONE;=Any
    =ENCODE;=SHOTGUN;PrimerWalk; CLONEEND
    LONGITUDE*
    サンプル採取地点の経度 (standard GPS notation に基づく) Type: float Example: -86.403 環境サンプルデータの取得地点の経度。グリニッジ子午線を 0° として,子午線よりも東は +180°,西は -180° です。
    次の の組み合わせで必須です:
    =Env Sample-Geo; =Any
    LO_FILTER_SIZE
    環境サンプルを分取したフィルターで一番小さいサイズ Type: varchar(50) Example: 25 micron は環境サンプルでのみ記載可能ですが必須ではありません。
    NCBI_PROJECT_ID
    INSDC によって管理されている BioProject ID Type: int Example: 7 は trace と BioProject database を結びつけ,プロジェクト単位でのデータ取得を可能にします。シークエンス拠点はゲノム配列データを登録する前に DDBJ BioProject にプロジェクトを登録することができます。プロジェクト登録の時点で配列データを登録する必要はありません。
    ORGANISM_NAME*
    BARCODE プロジェクトにおいて trace が由来する生物種名 Type: varchar(100) Example: Acanthocybium solandri は BARCODE データにおいてリードを生物種ごとに分類するのに使われます。生物種名はTaxonomy Browser に従って記載します。全ての BARCODE データでは="BARCODESPECIES" になります。=BARCODE の場合に必須です。
    PEAK_FILE
    peak value が記載されたファイル Type: varchar(200) Example: ./mytraces/123clone.peak 説明については をご覧ください。
    PH
    環境サンプルが採取された場所の pH Type: float Example: 7.2 は環境サンプルでのみ記載可能ですが必須ではありません。
    PICK_GROUP_ID
    同じ時に取得された trace をまとめる ID Type: int Example: 939065
    PLACE_NAME
    生物学的サンプルが得られた地点の国名 and/or 一般に通用する名称 Type: varchar(250) Example: Octopus Springs は環境サンプルでのみ記載可能ですが必須ではありません。
    PLATE_ID
    登録者が付けたプレート ID Type: varchar(32) Example: 203 はシークエンステンプレートが保存された場所を指し示します( に記載されたクローンの保存場所ではありません)。この情報はこぼれたり何かが混入したプレートを同定するのに役立ちます。プレートを使用しない実験の場合は '0' を記入します。
    POPULATION_ID
    登録者が trace (もしくは trace のグループ) が由来する population に付けた ID Type: varchar(100) Example: CEPH は集団を特定するのに使われます。この情報は population study (通常 =SNP) で使用されます。
    PREP_GROUP_ID
    同じ時に調整された trace をまとめる ID Type: varchar(30) Example: A2
    PRIMER
    シークエンス反応で使われたプライマー配列 Type: varchar(200) Example: GAATACCTACGATCGCC にはシークエンスプライマーの塩基配列を記入します。センターが多種類のプライマーを使っている場合は に primer code のリストを記載します。
    PRIMER_CODE
    シークエンスプライマーに対するコード Type: varchar(30) Example: Sp6
    PRIMER_LIST*
    マッピング実験 (例 AFLP) で使われた ';' で区切られたプライマーのリスト Type: varchar(100) Example: AAGGTCTGCGCGTGTC;AGCTGCGTACGTAATCG; この項目は="AFLP" と ="PCR" の組み合わせのときに必須です。
    PROGRAM_ID*
    trace ファイルを作成するのに使われたプログラム Type: varchar(100) Example: phred-19990722h ベースコールに使われたプログラムをフリーテキストで記載します。プログラムの名前,バージョン番号や日付はとても有用です。
    例:
    • phred-19980904e
    • abi-3.1
    • ATQA
    • TraceTuner
    • Licor
    • Megabase
    • Beckman
    PROJECT_NAME
    異なるセンターからの trace をまとめる共通したプロジェクト名 Type: varchar(50) Example: New Project シークエンス拠点は共通したプロジェクト名を用いることで,あるプロジェクトから産みだされる全ての trace をグループ化することができます。記載可能なプロジェクト名は制限されています。この項目を利用する場合は事前に DDBJ Trace Archive に連絡し,全てのプロジェクト参加者が同意しているプロジェクト名を伝えます。
    QUAL_FILE
    quality score を含んだファイル Type: varchar(200) Example: ./mytraces/123clone.fasta.qs trace ファイルが quality score を含んでいない場合,quality score が含まれた別のファイルを登録します。 でファイルを指定します。trace (通常は scf) ファイル中の quality score は のもので上書きされます。 と trace ファイルの quality score が同じ場合は QUAL_FILE を登録しないでください。 の両方を登録する場合は,あわせて peak index 情報を として別ファイルで登録します。
    REFERENCE_ACCESSION*
    リシークエンスプロジェクトで使用されるリファレンス配列のアクセッション番号 (配列を特定するためにバージョン番号も併記します)。 Comparative study の場合はプライマーデザインの情報も付け加えます。 Type: varchar(50) Example: NT_029829.1 次の の組み合わせで必須です:
    =Re-sequencing;Comparative =Any
    REFERENCE_ACC_MAX*
    リシークエンスや比較ゲノム解析における amplicon の終了位置 Type: int Example: 30929 この項目はの accession.versionで特定されたリファレンス配列の終端の座標を記入します。スタートを (0ではなく) 1とした塩基対座標で記入します。
    次の の組み合わせで必須です:
    =Re-sequencing; =SHOTGUN; PCR;RT-PCR
    REFERENCE_ACC_MIN*
    リシークエンスや比較ゲノム解析における amplicon の開始位置 Type: int Example: 29829 この項目はの accession.versionで特定されたリファレンス配列の開始座標を記入します。スタートを (0ではなく) 1とした塩基対座標で記入します。
    次の の組み合わせで必須です:
    =Re-sequencing; =SHOTGUN; PCR;RT-PCR
    REFERENCE_OFFSET*
    リシークエンス解析でスタートの位置を決める REFERENCE_ACCESSION で指定された配列におけるオフセット値 Type: int Example: 1520899 この項目はの accession.versionで特定されたリファレンス配列の終端の座標を記入します。スタートを (0ではなく) 1とした塩基対座標で記入します。
    次の の組み合わせで必須です:
    =Re-sequencing; =CHIP
    REFERENCE_SET_MAX
    リシークエンスされた領域全体の終了位置。この領域は複数の amplicon を含むことがあります Type: int Example: 29829 この項目にはの accession.versionで指定されたリシークエンスされた領域全体の終了位置を記入します。スタートを (0ではなく) 1とした塩基対座標で記入します。REFERENCE_ACC_[MIN|MAX] と REFERENCE_SET_[MIN|MAX]のセットは同じ REFERENCE_ACC を参照する必要があります。
    REFERENCE_SET_MIN
    リシークエンスされた領域全体の開始位置。この領域は複数の amplicon を含むことがあります Type: int Example: 29829 この項目にはの accession.versionで指定されたリシークエンスされた領域全体の開始位置を記入します。スタートを (0ではなく) 1とした塩基対座標で記入します。REFERENCE_ACC_[MIN|MAX] と REFERENCE_SET_[MIN|MAX]のセットは同じ REFERENCE_ACC を参照する必要があります。
    RUN_DATE
    シークエンス反応が行われた日付 Type: datetime Example: 2000-10-28
    RUN_GROUP_ID
    同じシークエンサーでランされた trace につける ID Type: varchar(30) Example: group2
    RUN_LANE
    trace のレーン,もしくはキャピラリ Type: int Example: 1 には trace が得られたレーンやキャピラリを記入します。
    RUN_MACHINE_ID
    trace が得られたシークエンサーの ID Type: varchar(30) Example: machine2
    RUN_MACHINE_TYPE
    trace が得られたシークエンサーのモデル名 Type: varchar(30) Example: ABI 310
    SALINITY
    環境サンプルが採取された場所の千分率で表された塩濃度 Type: float Example: 20 は環境サンプルでのみ記載可能ですが必須ではありません。
    SEQ_LIB_ID*
    シークエンスに使用された M13/PUC ライブラリー Type: varchar(255) Example: 22194 シークエンスに用いられた M13/PUC ベースのクローンに対してセンターが独自に付けた ID を記入します。この ID で trace を ligation event でまとめることができるようになります。
    次の の組み合わせで必須です:
    =Any;=SHOTGUN
    =Any;=WGS/WCS
    SOURCE_TYPE*
    DNA のソース Type: varchar(50) Example: GENOMIC DNA に記載可能なコードとその説明は以下です:
    • G=Genomic DNA (ゲノム DNA からの PCR 産物を含む)
    • N=Non Genomic DNA (EST, cDNA, RT-PCR, screenedlibraries)
    • VIRAL RNA=Viral RNA
    • SYNTHETIC=Synthetic DNA

    記載可能なコードは G,N,GENOMIC,NON GENOMIC,VIRAL RNA,SYNTHETIC です。
    SPECIES_CODE*
    trace が得られた生物種 Type: varchar(100) Example: Homo sapiens は分類学上の生物種名でリードを分類するのに使われます。この項目はコントロールされています。Trace Archive に含まれている生物種名のリスト:http://www.ncbi.nlm.nih.gov/Traces/trace.cgi?cmd=stat&f=xml_list_species&m=obtain&s=speciesリストに含まれていない生物を登録する場合は,データを投稿する前に DDBJ Trace Archive に連絡します。trace が由来する生物を分類できない場合は,環境サンプルには 'ENVIRONMENTAL SEQUENCE' を人工物には 'ARTIFICIAL SEQUENCE' を使用することができます。
    STRAIN*
    trace が由来する strain Type: varchar(50) Example: C57BL/6J ="SNP" のときに必須です。
    STRATEGY*
    実験的な strategy Type: varchar(50) Example: MODEL VERIFY trace を得る上で採用された実験上の 。値はコントロールされていますが,登録者はリストへの新しい用語の追加を申請することができます。

    • AFLP: Amplified Fragment Length Polymorphism
    • BARCODE: DNA sequence analysis of a uniform target gene toenable species identification
    • CCS: Concatenated cDNA sequencing
    • cDNA: Sequences generated in the process of sequencing cDNAclones
    • CF-S: Cot-filtered single/low-copy genomic DNA
    • CF-M: Cot-filtered moderately repetitive genomic DNA
    • CF-H: Cot-filtered highly repetitive genomic DNA
    • CF-T: Cot-filtered theoretical single-copy DNA
    • CLONE: Genomic clone based (hierarchical) sequencing
    • CLONEEND: Sequences generated from the end of a clone(BAC/PAC/Fosmid or cDNA)
    • Comparative: Sequences obtained using primers design fromrelated species
    • CTS: Concatenated Tag Sequencing
    • Env Sample-GEO: Geographically generated environmentalsample
    • Env Sample-Host: Environmental samples collected from aspecific host
    • EST: single pass sequencing of cDNA templates
    • FINISHING: a read specifically made for finishing, could beeither BAC finishing or Whole Genome Assembly (WGA) finishing
    • MODEL VERIFY: Sequences obtained to verify proposed genemodels
    • PoolClone: Pools of clones (BACs mostly)
    • SNP: Reads used for SNP identification
    • TARGETED LOCUS: Sequences obtained from templates generated byprimers designed to amplify a specific genetic locus
    • Re-sequencing: Re-sequencing of targeted genomic regions
    • RT-PCR: Sequences obtained using templates generated by ReverseTranscriptase Polymerase Chain Reaction
    • WGA: Whole Genome Assembly
    SUBMISSION_TYPE*
    submission の種類 Type: varchar(50) Example: NEW 記載可能な値:
    • NEW: 新しいデータを登録するとき
    • UPDATE:trace とメタデータを更新するとき。以前のデータは TI とともに保存され,更新された trace には新しい TI が付与され active になります。
    • UPDATEINFO:登録済みの trace を変えることなくメタデータのみを更新するとき
    • WITHDRAW:trace を withdraw するとき
    SVECTOR_ACCESSION
    シークエンスベクターの DDBJ/EMBL/GenBank アクセッション番号 Type: varchar(50) Example: X52325
    SVECTOR_CODE
    センターが独自にシークエンスベクターに付けたコード Type: varchar(50) Example: pBluescript SK(+)
    TEMPERATURE
    環境サンプルが採取された地点の温度 (oC) Type: float Example: 30 は環境サンプルでのみ記載可能ですが必須ではありません。
    TEMPLATE_ID
    登録者がシークエンスしたテンプレートに付けた ID Type: varchar(50) Example: HBBBA2211 は実際にシークエンスされたテンプレートを同定するのに使われます。この情報と TRACE_END を組み合わせ,ある2つの trace が同じクローンの両側から得られた 'mate_pairs' かどうか判断しています。
    TRACE_END
    リードに含まれるテンプレートの向き Type: varchar(50) Example: F は以下の値を持てます:
    • F: FORWARD
    • R: REVERSE
    • N: UNKNOWN
    TRACE_FILE*
    ルートからの trace ファイルまでの絶対パス Type: varchar(200) Example: ./traces/TRACE001.scf
    TRACE_FORMAT*
    trace のファイル形式 Type: varchar(20) Example: scf は以下の値を持てます:
    • SCF - DNA シークエンス装置から出力される標準的なフォーマット
    • ABI - ABI-tracefile は trace データと塩基配列を含むバイナリーファイルです
    TRACE_NAME*
    登録者が trace に付ける名前 Type: varchar(250) Example: HBBBA1U2211 はセンター単位でユニークであればよく,センター間でユニークである必要はありません。Trace Archive では の組み合わせがユニークなキーとして働きます。
    TRACE_TYPE_CODE*
    trace が取得されたシークエンス strategy Type: varchar(50) Example: wgs には trace を得るのに使われたシークエンス strategy を記入します。

    取り得る値:
    • CHIP: Sequences obtained using microarrays (also called DNAchips or gene chips)
    • CLONEEND: Sequences generated from the end of a large insert(BAC/PAC/Fosmid) or cDNA clone
    • EST: Single Pass Expressed Sequence Tag
    • HTP SELEX: High throughput SELEX
    • OTHER: Other than PCR, PrimerWalk, SHOTGUN or TRANSPOSON forFINISHING
    • PCR: Sequences obtained using templates generated by genomicPolymerase Chain Reaction
    • PrimerWalk: Sequences generated through a primer walkingstep
    • RT-PCR: Sequences obtained using templates generated by ReverseTranscriptase Polymerase Chain Reaction
    • SHOTGUN: Shotgun sequencing of clones (genomic or cDNA)
    • TRANSPOSON: Sequences obtained using templates generated bytransposons
    • WCS: Whole Chromosome Shotgun
    • WGS: Whole Genome Shotgun
    TRANSPOSON_ACC*
    シークエンステンプレートを生成するのに使われたトランスポゾンの DDBJ/EMBL/GenBank アクセッション番号 Type: varchar(50) Example: X00913 次の の組み合わせの時に必須です:=Any;=TRANSPOSON
    TRANSPOSON_CODE*
    シークエンステンプレートを生成するのに使われたトランスポゾンにセンターが付けたコード Type: varchar(50) Example: Mu transposon 次の の組み合わせの時に必須です:=Any;=TRANSPOSON
    WELL_ID
    シークエンス反応が行われたウェルにセンターが付けた ID Type: varchar(50) Example: A1 と一緒にシークエンス反応が行われた場所を特定するのに利用されます ( も参照)。通常シークエンス反応は標準的な 96 もしくは 384 穴プレートで行われます (下の標準的なウェルの配置図を参照)。
    標準的な 96 穴プレートの配置
    標準的な 96 穴プレートの配置
    標準的な 384 穴プレートの配置
    標準的な 384 穴プレートの配置

    Internal Fields List

    BASECALL_LENGTH
    trace の塩基長 Type: int Example: 396
    BASES_20
    quality score が 20 を超える塩基数 Type: smallint Example: 50 注意:quality score がない登録がいくつか存在します。これは ABI ファイルだけが登録され, quality call が別ファイルで登録されなかったためです。
    BASES_40
    quality score が 40 を超える塩基数 Type: smallint Example: 50 注意:quality score がない登録がいくつか存在します。これは ABI ファイルだけが登録され, quality call が別ファイルで登録されなかったためです。
    BASES_60
    quality score が 60 を超える塩基数 Type: smallint Example: 50 注意:quality score がない登録がいくつか存在します。これは ABI ファイルだけが登録され, quality call が別ファイルで登録されなかったためです。
    LOAD_DATE
    データがロードされた日付 Type: smalldatetime Example: Jan 8 2001 11:59AM
    MATE_PAIR
    同じテンプレートの逆方向から得られたリードの TI 番号 Type: int Example: 203682255 MATE PAIR は同じテンプレートの両方向 (FORWARD と REVERSE) から得られたリード。
    REPLACED_BY
    "active" な TI を置き換えた TI Type: int Example: 304753779 この項目は最新のデータセットを指し示します。trace が更新された場合 は新しいが入力されます。メタデータのみが更新された場合は replaced_by=0 で表示されません。
    STATE
    trace の status Type: varchar Example: active 取り得る値:
    • active
    • updated
    • withdrawn
    TAXID
    NCBI Taxonomy ID Type: int Example: 10090 DDBJ Trace Archive と NCBI Taxonomy Browser とを結びつけます。
    TI
    trace 固有のアクセッション番号 Type: int Example: 304753779 trace がデータベースにロードされた時点で TI が付与されます。どのようなレコードでも TI で取得できます。
    UPDATE_DATE
    データが update/replace された日時 Type: smalldatetime Example: Jul 19 2001 3:48PM 最後に更新された日時が記録されます。

    trace データの登録

    ヒトを対象とした研究データの登録について
    ヒトを対象とした全ての研究において DDBJ に送付するデータの由来である個人 (被験者) の情報・プライバシーは,適用されるべき法律,規定,登録者が所属している機関の方針に従い,登録者の責任において保護されている必要があります。
    原則として,被験者を直接特定し得る参照情報は,登録データから取り除いてください。
    ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」をご覧ください。

    TI 番号

    DDBJ Trace Archive (DTA) への登録にはメタデータtrace ファイルが必要です。 ユニークなアクセッション番号 (TI 番号) は trace データが NCBI Trace Archive に登録されるときに割り振られます。 TI 番号が発行されたデータは即日公開されます。

    TI 番号発行後,データは即日公開されます。

    登録に必要なファイル

    テキストファイル (TRACEINFO ファイル) に trace データに関するメタデータを記述し,trace ファイルの場所を指定します。 トップディレクトリを作成し,全てのメタデータファイルをトップディレクトリ下に配置します。 また trace ファイルは,トップディレクトリ下に1つ以上のディレクトリを作成し,その内に配置します。 trace ファイル (SCFABI フォーマットのどちらの場合でも) はトップレベルではなく,サブディレクトリのなかに配置されている必要があります。 サブディレクトリ名には trace やプロジェクトの名前を使うことを推奨します。 さらにサブディレクトリを作成し trace をグループに分けることができます。

    以下は登録ディレクトリの構成例です。

    登録ディレクトリの構成例

    TOP_DIRECTORY/
    TOP_DIRECTORY/TRACEINFO
    TOP_DIRECTORY/traces
    TOP_DIRECTORY/traces/FLJ/
    TOP_DIRECTORY/traces/FLJ/FLJA1U0001.scf
    TOP_DIRECTORY/traces/FLJ/FLJA1U0002.scf
    TOP_DIRECTORY/traces/FLJ/FLJA1U0003.scf
    

    メタデータファイルは XML かタブ区切りテキストファイル形式にします。 STRATEGY と TRACE_TYPE_CODE の組み合わせで必須になるメタデータ項目一覧は Validation Table をご覧ください。どちらの形式のメタデータでも最初に共通項目のセクションを含めることができます。 このセクションには各 trace に共通する項目を記載します。

    以下は TRACEINFO メタデータファイルの例です。

    TRACEINFO xml ファイルの例

    <?xml version="1.0"?>
    <trace_volume>
       <common_fields>
          <center_name>CENTER NAME ACRONYM IS HERE</center_name>
          <center_project>FLJ</center_project>
          <source_type>N</source_type>
          <species_code>HOMO SAPIENS</species_code>
          <strategy>EST</strategy>
          <submission_type>NEW</submission_type>
          <trace_format>SCF</trace_format>
          <trace_type_code>EST</trace_type_code>
       </common_fields>
       <trace>
          <trace_name>F-3NB691000020</trace_name>
          <trace_file>./traces/F-3NB691000020.scf</trace_file>
          <clone_id>3NB691000020</clone_id>
          <library_id>3NB691</library_id>
          <template_id>3NB691000020</template_id>
       </trace>
       <trace>
          <trace_name>F-3NB691000033</trace_name>
          <trace_file>./traces/F-3NB691000033.scf</trace_file>
          <clone_id>3NB691000033</clone_id>
          <library_id>3NB691</library_id>
          <template_id>3NB691000033</template_id>
       </trace>
         --- more information ---
    </trace_volume>

    TRACEINFO タブ区切りテキストファイルの例

    center_name = CENTER NAME ACRONYM IS HERE
    center_project = FLJ
    source_type = N
    species_code = HOMO SAPIENS
    strategy = EST
    submission_type = NEW
    trace_format = SCF
    trace_type_code = EST
    trace_name	clone_id	library_id	template_id	trace_file
    F-3NB691000020	3NB691000020	3NB691	3NB691000020	./traces/F-3NB691000020.scf
    F-3NB691000033	3NB691000033	3NB691	3NB691000033	./traces/F-3NB691000033.scf
    --- more information ---

    アカウントの取得

    DDBJ 登録用アカウントを取得します。

    登録用ファイルのアップロード

    DTA チームに連絡し,登録用ディレクトリの作成を依頼します。 マニュアルに従いファイルを SCP で転送します。

    登録ディレクトリの例

    submission/submitter_id/dta/dta_submitter_id-0001
    DTA の登録用ディレクトリは DDBJ Sequence Read Archive とは別になります。

    登録の完了

    登録の完了後,登録者が公開を指示するまで DTA はデータを非公開にします。 データ公開の指示があれば DTA は NCBI Trace Archive にデータをアップロードします。データが NCBI Trace Archive にロードされると TI 番号が発行されデータは公開されます。

    TI 番号の発行とデータ公開は同時になります。

    データの更新

    データを更新するときは DTA チームまでご連絡ください