DDBJ Sequence Read Archive Handbook

    公開日: 2014年3月25日;  最終更新日: 2016年7月20日

    DDBJ Sequence Read Archive

    DDBJ Sequence Read Archive (DRA) は Roche 454 GS System®,Illumina Genome Analyzer®,Applied Biosystems SOLiD® System などの次世代シークエンサからの出力データのためのデータベースです。 DRA は International Nucleotide Sequence Database Collaboration (INSDC) のメンバーであり, NCBI Sequence Read Archive (SRA)EBI Sequence Read Archive (ERA) との国際協力のもと,運営されています。

    公開された Analysis 以外のデータは3極で自動的にミラーリングされます。

    従来のキャピラリ式シークエンサからの出力データは fastq ファイルとして DRA に登録することができます。 クロマトグラムの登録を希望する場合は DDBJ Trace Archive に登録します。

    メタデータ

    メタデータオブジェクト

    メタデータにはシークエンスデータがどのようにして得られたのかが記載されています。 メタデータは SubmissionBioProjectBioSampleExperimentRunAnalysis の各オブジェクトで構成されます。 各オブジェクトは XML スキーマで定義され,相互に関連付けられています。アクセッション番号はオブジェクトに対して発行されます。 オブジェクトの構造とアクセッション番号は DDBJ/EBI/NCBI で共通です。 Experiment,Run,Analysis は SRA のオブジェクトで,BioProject と BioSample は外部データベースのオブジェクトになります。

    メタデータの詳細は対応する XML スキーマをご覧ください。DRA XML schema

    Submission

    登録するオブジェクトをとりまとめるオブジェクト。

    BioProject

    研究プロジェクト全体の概要。プロジェクトは複数のサンプルやデータセットを含むことが一般的です。

    BioSample

    生物学的なサンプルに関する記述。サンプルはユニークな属性をもった BioSample として登録します。

    Experiment

    BioSample に由来するシークエンス用ライブラリーとシークエンスの手法について記載します。 Experiment は1つの BioProject と1つの BioSample を参照します。 複数の Experiment は1つの BioSample を参照することができますが,逆に1つの Experiment が複数の BioSample を参照することはできません。

    Run

    シークエンス用ライブラリー (Experiment) に由来するファイルをまとめます。 Experiment を介してデータファイルは特定のサンプルにリンクされます。 Run に含まれる全てのファイルは1つの SRA/fastq ファイルにマージされ,Run のアクセッション番号がファイル名になります。そのため,異なるサンプルや replicate に由来するファイルは同じ Run に含めるべきではありません。 一方,ペアードのデータファイルは同じ Run に含め,リードが正しくペアとして処理されるようにします。

    Analysis

    Run に格納されたデータを解析したデータで,しかるべき登録先がないようなデータを登録します。Analysis は DDBJ/EBI/NCBI で交換していません。 交換を希望する場合は DRA チームに連絡します。 Analysis は DRASearch でインデックスされず,ftp でのファイル公開のみになります。

    データモデル

    オブジェクトの構成例

    登録者は実際のデータにあわせて柔軟にオブジェクトを構成することができます。

    最もシンプルなケース

    最もシンプルなケース
    最もシンプルなケース

    三つの菌株の比較ゲノム解析 (ペアエンド)

    ペアリードファイルは同じ Run に含めます。

    三つの菌株の比較ゲノム解析 (ペアエンド)
    三つの菌株の比較ゲノム解析 (ペアエンド)

    (Technical, Biological) replicate がある場合

    関連する FAQ: DRA 登録にはいくつのサンプルが必要ですか?

    (Technical, Biological) replicate がある場合
    (Technical, Biological) replicate がある場合

    関連するデータが別々の論文に発表される場合

    関連するデータが別々の論文に発表される場合
    関連するデータが別々の論文に発表される場合

    メタデータ各項目の説明

    必須*
    条件によって必須*

    Submission

    Center Name

    登録者が所属する組織に関する情報を記載します。

    Center Name*

    登録者が所属する組織の Center Name。Center Name リスト。DDBJ/EBI/NCBI SRA にデータを登録する際にはこの Center Name が必要です。

    メタデータ作成ツールはアカウント情報から Center Name を自動的に取得します。

    Center Name は登録の所有権を示すものではなく,SRA が運用上使用している略称です。所有権は Submitter に記載される登録者にあります。

    Lab Name*
    登録者が所属する研究室やグループ名。アカウントに登録されている "Lab/Group","Department (2)","Department (1)","Organization" がカンマで連結されたテキストが初期表示されます。

    Hold Until

    公開方法を指定します。

    Hold Until*
    公開予定日を設定します。最長で2年後まで設定でき,延長することができます。
    Immediate Release*
    即日公開。登録作業が終わり次第,データが公開されます。

    Submitter

    登録者の名前とメールアドレスのリストです。責任者 (principal investigator) を含めてください。登録に関する連絡は記入された全てのアドレスに対して行われます。責任者以外の人が登録作業をした場合,その作業者を含めてください。登録者情報は公開されません。登録者情報を明示したい場合は BioProject に記載してください。

    Name*
    登録者の名前。
    E-mail*
    登録者の電子メールアドレス。

    BioProject

    BioProject ID*
    BioProject に登録済みのプロジェクトから該当するものを1つ選択するか,新規に BioProject を登録します。BioProject の登録方法は BioProject Handbook を参照してください。

    BioSample

    BioSample ID*
    BioSample に登録済みのサンプルから該当するものを選択するか,新たにサンプルを登録します。BioSample の登録方法は BioSample Handbook を参照してください。

    Experiment

    Alias
    自動的に Experiment に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。
    BioSample Used*
    Experiment が参照している BioSample を選択します。
    Title*
    検索結果で表示される Experiment の短いタイトル。 自動的に "[Sequencing Instrument Model] [paired end] sequencing of [BioSample ID]" というタイトル(例 "Illumina HiSeq 2000 paired end sequencing of SAMD00025741")が構築されます。 独自のタイトルを入力する場合は,Experiment の内容をタブ区切りテキストファイルとしてダウンロードし,Title カラムにユニークなテキストを入力しアップロードします。
    Library Name
    ライブラリーの名前。
    Library Source*
    ライブラリー構築に用いた試料。
    Library Source Description
    GENOMIC Genomic DNA (includes PCR products from genomic DNA).
    TRANSCRIPTOMIC Transcription products or non genomic DNA (EST, cDNA, RT-PCR, screened libraries).
    METAGENOMIC Mixed material from metagenome.
    METATRANSCRIPTOMIC Transcription products from community targets.
    SYNTHETIC Synthetic DNA.
    VIRAL RNA Viral RNA.
    OTHER Other, unspecified, or unknown library source material.
    Library Selection*
    シークエンスに用いたライブラリを構築するためのサンプルの選別や濃縮方法。
    Library Selection Description
    RANDOM Random shearing only.
    PCR Source material was selected by designed primers.
    RANDOM PCR Source material was selected by randomly generated primers.
    RT-PCR Source material was selected by reverse transcription PCR.
    HMPR Hypo-methylated partial restriction digest.
    MF Methyl Filtrated.
    repeat fractionation Selection for less repetitive (and more gene rich) sequence through Cot filtration (CF) or other fractionation techniques based on DNA kinetics.
    size fractionation Physical selection of size appropriate targets.
    MSLL Methylation Spanning Linking Library.
    cDNA complementary DNA.
    cDNA_randomPriming
    cDNA_oligo_dT
    PolyA PolyA selection or enrichment for messenger RNA (mRNA); should replace cDNA enumeration.
    Oligo-dT enrichment of messenger RNA (mRNA) by hybridization to Oligo-dT.
    Inverse rRNA depletion of ribosomal RNA by oligo hybridization.
    ChIP Chromatin immunoprecipitation.
    MNase Micrococcal Nuclease (MNase) digestion.
    DNAse Deoxyribonuclease (DNase) digestion.
    Hybrid Selection Selection by hybridization in array or solution.
    Reduced Representation Reproducible genomic subsets, often generated by restriction fragment size selection, containing a manageable number of loci to facilitate re-sampling.
    Restriction Digest DNA fractionation using restriction enzymes.
    5-methylcytidine antibody Selection of methylated DNA fragments using an antibody raised against 5-methylcytosine or 5-methylcytidine (m5C)MBD2 protein methyl-CpG binding domain : Enrichment by methyl-CpG binding domain.
    MBD2 protein methyl-CpG binding domain MBD2 protein methyl-CpG binding domain.
    CAGE Cap-analysis gene expression.
    RACE Rapid Amplification of cDNA Ends.
    MDA multiple displacement amplification.
    padlock probes capture method Padlock Probes capture strategy to be used in conjuction with Bisulfite-Seq.
    other Other library enrichment, screening, or selection process.
    unspecified Library enrichment, screening, or selection is not specified.
    Library Strategy*
    ライブラリーの構築手法。
    Library Strategy Description
    WGS Whole genome shotgun.
    WGA Whole genome amplification.
    WXS Random sequencing of exonic regions selected from the genome.
    RNA-Seq Random sequencing of whole transcriptome.
    miRNA-Seq Micro RNA and other small non-coding RNA sequencing.
    ncRNA-Seq Capture of other non-coding RNA types, including post-translation modification types such as snRNA (small nuclear RNA) or snoRNA (small nucleolar RNA), or expression regulation types such as siRNA (small interfering RNA) or piRNA/piwi/RNA (piwi-interacting RNA).
    ssRNA-seq strand-specific RNA sequencing
    WCS Whole chromosome (or other replicon) shotgun.
    CLONE Genomic clone based (hierarchical) sequencing.
    POOLCLONE Shotgun of pooled clones (usually BACs and Fosmids).
    AMPLICON Sequencing of overlapping or distinct PCR or RT-PCR products.
    CLONEEND Clone end (5', 3', or both) sequencing.
    FINISHING Sequencing intended to finish (close) gaps in existing coverage.
    RAD-Seq Restriction Site Associated DNA Sequence
    ChIP-Seq Direct sequencing of chromatin immunoprecipitates.
    MNase-Seq Direct sequencing following MNase digestion.
    DNase-Hypersensitivity Sequencing of hypersensitive sites, or segments of open chromatin that are more readily cleaved by DNaseI.
    Bisulfite-Seq Sequencing following treatment of DNA with bisulfite to convert cytosine residues to uracil depending on methylation status.
    EST Single pass sequencing of cDNA templates.
    FL-cDNA Full-length sequencing of cDNA templates.
    CTS Concatenated Tag Sequencing.
    MRE-Seq Methylation-Sensitive Restriction Enzyme Sequencing strategy.
    MeDIP-Seq Methylated DNA Immunoprecipitation Sequencing strategy.
    MBD-Seq Direct sequencing of methylated fractions sequencing strategy.
    Tn-Seq Gene fitness determination through transposon seeding.
    FAIRE-seq Formaldehyde Assisted Isolation of Regulatory Elements
    SELEX Systematic Evolution of Ligands by EXponential enrichment
    RIP-Seq Direct sequencing of RNA immunoprecipitates (includes CLIP-Seq, HITS-CLIP and PAR-CLIP).
    ChIA-PET Direct sequencing of proximity-ligated chromatin immunoprecipitates.
    Hi-C Chromosome Conformation Capture technique where a biotin-labeled nucleotide is incorporated at the ligation junction, enabling selective purification of chimeric DNA ligation junctions followed by deep sequencing
    ATAC-seq Assay for Transposase-Accessible Chromatin (ATAC) strategy is used to study genome-wide chromatin accessibility. alternative method to DNase-seq that uses an engineered Tn5 transposase to cleave DNA and to integrate primer DNA sequences into the cleaved genomic DNA
    Targeted-Capture
    Tethered Chromatin Conformation Capture
    Synthetic-Long-Read binning and barcoding of large DNA fragments to facilitate assembly of the fragment
    Other Library strategy not listed.
    Library Construction Protocol
    ライブラリーを構築したプロトコール。
    Instrument*
    シークエンサの機種を選択します。
    Instrument Model
    454 GS
    454 GS 20
    454 GS FLX
    454 GS FLX+
    454 GS FLX Titanium
    454 GS Junior
    Illumina Genome Analyzer
    Illumina Genome Analyzer II
    Illumina Genome Analyzer IIx
    Illumina HiSeq 1000
    Illumina HiSeq 1500
    Illumina HiSeq 2000
    Illumina HiSeq 2500
    Illumina HiSeq 3000
    Illumina HiSeq 4000
    Illumina MiSeq
    Illumina HiScanSQ
    HiSeq X Five
    HiSeq X Ten
    NextSeq 500
    NextSeq 550
    Helicos HeliScope
    AB SOLiD System
    AB SOLiD System 2.0
    AB SOLiD System 3.0
    AB SOLiD 3 Plus System
    AB SOLiD 4 System
    AB SOLiD 4hq System
    AB SOLiD PI System
    AB 5500 Genetic Analyzer
    AB 5500xl Genetic Analyzer
    AB 5500xl-W Genetic Analysis System
    Complete Genomics
    MinION
    GridION
    PromethION
    PacBio RS
    PacBio RS II
    Ion Torrent PGM
    Ion Torrent Proton
    AB 310 Genetic Analyzer
    AB 3130 Genetic Analyzer
    AB 3130xL Genetic Analyzer
    AB 3500 Genetic Analyzer
    AB 3500xL Genetic Analyzer
    AB 3730 Genetic Analyzer
    AB 3730xL Genetic Analyzer
    Spot Type*
    データファイル中のリード構成を選択します。
    Spot TypeDescription
    singleSingle read
    paired (FF)Paired reads with same direction.
    paired (FR)Paired reads with opposite direction.
    Nominal Length*
    ペアエンドライブラリを構築した際のインサートサイズ。
    Nominal Sdev
    インサートサイズの標準偏差
    Spot Length*

    データファイル中のリードの長さを記載します。ペアードの場合は両リードの合計長 (ギャップ長は除きます) を記入します。

    • Spot length が一定の場合,一定の値を記入
    • リード長が一定ではない 454 プラットフォームの場合,フロー数を記入
    • 不定長の fastq の場合,平均長を記入

    Run

    Alias
    自動的に Run に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。
    Title*
    Run の短いタイトル。ユニークなタイトルを付けます。 検索結果で表示される Run の短いタイトル。 自動的に "[Sequencing Instrument Model] [paired end] sequencing of [BioSample ID]" というタイトル(例 "Illumina HiSeq 2000 paired end sequencing of SAMD00025741")が構築されます。 独自のタイトルを入力する場合は,Run の内容をタブ区切りテキストファイルとしてダウンロードし,Title カラムにユニークなテキストを入力しアップロードします。
    Experiment Referenced*
    Run が属する Experiment を選択します。

    Data files for Run

    Run に含めるデータファイルを選択します。

    Run/Analysis
    データファイルが Run もしくは Analysis に属しているのかを指定します。ウェブ画面上では入力できず,属している Run もしくは Analysis の alias が選択されると自動的に入力されます。タブ区切りテキストファイルで入力する場合には,Run もしくは Analysis を入力します。
    File Name*
    シークエンスデータファイル名。DRA サーバにアップロードされているファイル名が自動的に入力されます。
    Run/Analysis contains files*
    データファイルが属する Run を選択します。
    File Type*
    シークエンスデータのファイル形式。リード長が一定ではない fastq ファイルの場合は "generic_fastq",一定の場合は "fastq" を選択します。イルミナ qseq の場合,Run XML を編集して "Illumina_native_qseq" を入力します。
    File Type Description
    generic_fastq fastq files with variable read length
    fastq fastq files with constant read length
    sff 454 Standard Flowgram Format file
    hdf5 PacBio hdf5 Format file
    SOLiD_native SOLiD csfasta and qual files
    bam Binary SAM format for use by loaders that combine alignment and sequencing data
    tab A tab-delimited table maps "SN in SQ line of BAM header" and "reference fasta file"
    reference_fasta Reference sequence file in single fasta format used to construct SRA archive file format. Filename must end with ".fa"
    MD5 Checksum*
    データファイルの MD5 チェックサム値。MD5 チェックサム値の取得方法

    Analysis

    Alias
    自動的に Analysis に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。
    Title*
    Analysis オブジェクトのタイトル。
    Description*
    Analysis の内容を記述します。
    Analysis Type*
    Analysis の種類を選択します。アライメントデータは Run に登録します。
    Analysis Type Description
    De Novo Assembly A placement of sequences including trace, SRA, GI records into a multiple alignment from which a consensus is computed..
    Sequence Annotation Per sequence annotation of named attributes and values.
    Example: Processed sequencing data for submission to dbEST without assembly.
    Reads have already been submitted to one of the sequence read archives in raw form.
    The fasta data submitted under this analysis object result from the following treatments, which may serve to filter reads from the raw dataset:
        - sequencing adapter removal
        - low quality trimming
        - poly-A tail removal
        - strand orientation
        - contaminant removal.
    Abundance Measurement Identify the tools and processing steps used to produce the abundance measurements (coverage tracks).

    Data files for Analysis

    Analysis に含めるデータファイルを選択します。

    Run/Analysis
    データファイルが Run もしくは Analysis に属しているのかを指定します。ウェブ画面上では入力できず,属している Run もしくは Analysis の alias が選択されると自動的に入力されます。タブ区切りテキストファイルで入力する場合には,Run もしくは Analysis を入力します。
    File Name*
    解析データのファイル名。
    Run/Analysis contains files*
    データファイルが属する Analysis を選択します。
    File Type*
    解析データのファイル形式。
    File Type Description
    bam Binary form of the Sequence alignment/map format for read placements, from the SAM tools project.
    See http://sourceforge.net/projects/samtools/.
    tab A tab delimited text file that can be viewed as a spreadsheet. The first line should contain column headers..
    ace Multiple alignment file output from the phred assembler and similar programs.
    See http://www.phrap.org/consed/distributions/README.16.0.txt for a description of the ACE file format..
    fasta Sequence data format indicating sequence base calls.The format is simple: a header line initiated with the > character, data lines following with base calls..
    wig The wiggle (WIG) format allows display of continuous-valued data in track format.This display type is useful for GC percent, probability scores, and transcriptome data.
    See http://genome.ucsc.edu/goldenPath/help/wiggle.html for a description of the Wiggle Track format..
    bed BED format provides a flexible way to define the data lines that are displayed in an annotation track.
    See http://genome.ucsc.edu/FAQ/FAQformat#format1 for a description of the BED format..
    vcf Variant Call Format.
    See http://www.1000genomes.org/wiki/analysis/variant%20call%20format/vcf-variant-call-format-version-41 for a description of the VCF format.
    maf Mutation Annotation Format
    gff General Feature Format
    csv
    tsv
    MD5 Checksum*
    Analysis データファイルの MD5 チェックサム値。MD5 チェックサム値の取得方法補足

    データファイル

    アライメントデータやシークエンスデータを登録します。

    • fasta は受け付けていません。最低限 quality score 付きのベース/カラーコールデータが必要です。
    • バーコード配列で由来サンプルが区別されたデータファイルは登録前に分割し,由来サンプルごとに BioSample を作成します。各 BioSample には1つかそれ以上のユニークなデータファイルがリンクされている状態にします。
    • データファイルは登録用ディレクトリの直下に置いてください。基本的に tar などのアーカイブファイルのなかにディレクトリを作成しないでください。
    • BAM,SFF や HDF5 などのバイナリーファイルは圧縮しないでください。

    登録するデータファイルの形式について

    DRA のメタデータ作成ツールは technical read (アダプター,プライマーやバーコード配列) を記載することに対応していません。 「technical read を含む生データを登録する場合」や「DRA XML schema 中にはあるがツール中には無い項目をメタデータに記載する場合」はメタデータを XML ファイルで登録する必要があります。

    一般的な形式

    Format Platform Recommended
    BAM all platforms Yes
    fastq all platforms Yes

    プラットフォーム特異的な形式

    Format Platform Recommended
    SFF 454 and Ion Torrent Yes
    SOLiD csfasta/qual SOLiD Yes
    PacBio HDF PacBio Yes
    Illumina qseq and scarf Illumina No (please convert to fastq)

    BAM ファイル

    Run にアライメントデータを登録する場合は,「BAM」,「INSDC, refseq アクセッション番号 OR リファレンス配列 fasta」,「SN と リファレンス配列 の対応表」が必要です。

    Run ではなく Analysis に登録する場合「SN と リファレンス配列の対応表」は不要です。

    将来,新しいツールで再解析や再アライメントする際に重要であるため,BAM ファイルのみを登録するときはアライメントされなかったリードを含めてください。

    • BAM

    • アライメントデータを BAM フォーマットで登録することができます。BAM ファイルは SAMtoolspicard で読み込める形式になっている必要があります。圧縮していない BAM ファイルをアップロードしてください。

      Run の File Type には "bam" を選択します。

    • INSDC, refseq アクセッション番号 OR リファレンス配列 fasta

    • リファレンス配列が ftp://ftp-trace.ncbi.nlm.nih.gov/sra/refseq/ にある場合,アクセッション番号.バージョン番号 (例 NC_000001.11) でリファレンスを参照することができます。 配列のバージョン番号は必須です。リファレンスゲノム配列のアクセッション番号は NCBI Assembly で検索することができます。

      上記レポジトリに配列がない場合,リファレンス配列を fasta ファイルで登録します。マルチ fasta ではなくシングル fasta 形式にし,拡張子を ".fa" にします。 Run の File Type には "reference_fasta" を選択します。

    • SN-リファレンス配列の対応表

    • ご自分で独自に作成するファイルです。「BAM ファイルヘッダーの SQ 行中の SN」と「アクセッション番号 OR リファレンス fasta ファイル (拡張子 .fa を除いたもの)」との対応関係をタブ区切りで記載します。 Run の File Type には "tab" を選択します。

      BAM ファイルヘッダー
      @HD VN:1.0 GO:none SO:coordinate
      @SQ SN:chr1 LN:249698942
      @SQ SN:chr2 LN:242508799
      @SQ SN:chr3 LN:198450956
      ...
      
      SN-リファレンス配列の対応表。例では SN:chr1 にリファレンス fasta ファイル ref1.fa が対応。
      chr1	ref1
      chr2	ref2
      chr3	ref3
      ...
      
      SN-リファレンス配列の対応表。例では SN:chr1 に NC_000001.11 が対応。
      chr1	NC_000001.11
      chr2	NC_000002.12
      chr3	NC_000003.12
      ...
      

    fastq

    Run の filetype はリード長が一定・不定によって異なります。

    • リード長が揃っている fastq ファイルの場合,Run の file type で fastq を選択します。ペアードデータの場合,対になっているファイル中でペアとなっているリードが同じ順番で記載されている必要があります。
    • リード長が一定ではない fastq ファイル: Run の file type で generic_fastq を選択します。

    fastq の形式。詳しくはNCBI のサイトをご覧ください。

    • Quality value は phred 形式にしてください。オフセットはデフォルトで 33 (!) になります。64 (@) の場合は Run XML を編集して ascii_offset="@" にしてください。
    • Technical read (アダプター,リンカー,バーコード配列) を除去してください。
    • ペアードリードは別々の fastq ファイルとして登録してください。リード名にペアリードを同定するためのサフィックス (例 '/1' と '/2') が含まれている必要があります。
    • 各リードの最初の行は '@' で始まっている必要があります。
    • ベースコールと Quality value は '+' で始まる行で区切られている必要があります。
    • fastq ファイルは gzip もしくは bzip2 で圧縮してください。

    454

    454 からのシークエンスデータは sff ファイル か fastq ファイルで登録します。

    sff ファイル中のリード名は,プレート内の位置情報とユニークな run id を反映した情報を含んでいるので,sff ファイルを書き変えないでください。

    sffファイル形式はすでに最適化されており,ファイルをさらに圧縮する必要はありません。圧縮していない sff ファイルを送付してください。

    sff ファイルに2つ以上のサンプルに由来するデータが含まれている場合は,sff から生成した fastq ファイルをサンプルごとに分割して登録してください。

    Illumina Genome Analyzer

    Illumina Native Data

    Illumina pipeline v1.4 以降

    ファイル名を変更せずに qseq ファイルを Run の Data Block ごとに tar でまとめたものを登録します。 ペアードのデータファイルが Data Block ごとの tar ファイルに含まれている場合,ペアはリード名から自動判定されます。

    データ転送に時間がかかる場合には,必要に応じて tar アーカイブファイル全体を gzip (.gz) もしくは bzip2 (.bz2) で圧縮してください。qseq ファイルそのものは圧縮しないでください。

    qseq の場合,Run XML を編集して filetype に "Illumina_native_qseq" を入力します。

    qseq ファイルでの登録は推奨していません。できるだけ fastq に変換して登録してください。

    SOLiD

    SOLiD Native Format

    それぞれのランからの csfasta と QV.qual ファイルを登録します。ペアードデータの場合には,ペアのファイル (F3 と R3) を登録します。 ファイルは tar でまとめないでください。データ転送に時間がかかる場合には,必要に応じてデータファイルを gzip (.gz) もしくは bzip2 (.bz2) で圧縮してください。

    Ion Torrent

    sff ファイルもしくは fastq ファイルを登録します。

    Helicos Heliscope

    quality value をすべて "14" として作成した fastq ファイルを登録します。

    Complete Genomics

    fastq ファイルを登録します。

    Pacific Biosciences

    Pacific BioSystems は生データを格納するためにディレクトリ様構造を持つ HDF5 ファイルを使用しています。DRA は bas.h5 と bax.h5 両方のファイル形式での登録を受け付けています。RS II から出力されるデータは,1つの Run に *.bas.h5 1ファイルと *.bax.h5 3ファイルを登録します。ファイル名を変更しないでください。

    Run に HDF5 以外のデータを含めないでください。

    Pacific BioSystems からの出力データは fastq ファイルでの登録も受け付けています。リード長が一定ではないので,Run filetype には "generic_fastq" を指定してください。

    Oxford Nanopore

    fastq ファイルを登録します。

    キャピラリシークエンサ

    fastq ファイルを登録します。

    DRA へのデータ登録

    研究責任者 (principal investigator) の許可なくデータを登録しないでください。
    ヒトを対象とした研究データの登録について
    ヒトを対象とした全ての研究において DDBJ に送付するデータの由来である個人 (被験者) の情報・プライバシーは,適用されるべき法律,規定,登録者が所属している機関の方針に従い,登録者の責任において保護されている必要があります。
    原則として,被験者を直接特定し得る参照情報は,登録データから取り除いてください。
    ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」をご覧ください。
    特許に関連するデータの登録
    登録するデータが特許に関連する場合は,「特許に関連する塩基配列の登録に関する注意,データの優先権」の内容を必ずご確認ください。

    次世代シークエンサからのデータを DRA に登録するためにはメタデータとシークエンスデータが必要です。

    アセンブルした配列データは DDBJ へ登録します。DDBJ Mass Submission System (MSS) が,次世代シークエンサから生み出されるゲノムや大量データの登録受付先になります。

    DRA 登録の流れ

    1. 登録アカウントを作成

    2. DRA 登録を作成しデータファイルをアップロード

    3. プロジェクトとサンプル情報を登録

    BioProject (Study)

    • 研究プロジェクトの内容
    • 「なぜ」そのサンプルをシークエンスしたのか

    BioSample (Sample)

    • 生物学的,物理的にユニークなサンプル
    • 「何を」シークエンスしたのか

    メタデータをタブ区切りテキストファイルで登録できます

    4. Experiment と Run を登録

    DRA Experiment

    • 特定のサンプルから構築したライブラリーについての説明
    • 「どのように」シークエンスをしたのか
    • 複数の Experiment は一つの Sample を参照できるが,逆はできない

    DRA Run

    • Experiment と Run を投稿した後,データファイルの検証処理を開始
    • Run にリンクしている全てのデータファイルは 1 つの SRA ファイルにマージされます

    5. シークエンスデータファイルの検証処理

    • シークエンスデータファイルをアーカイブ用 SRA ファイルに変換する処理を開始
    • 検証処理を通った登録が査定されアクセッション番号が発行される

    DRA へのデータ登録方法

    BioProject, BioSample, DRA への登録

    データ構成

    オブジェクトの構成例はこちらをご覧ください。 Submission 中では1つの BioProject のみ登録できます。 BioSample,Experiment,Run は複数登録することができます。サンプル数を中心に考えるとデータを構成しやすくなります。

    ここでは3つのバクテリア菌株のゲノム配列をペアーエンドでシークエンスしたデータを登録する場合を例に説明します。

    三つの菌株のゲノム配列を登録
    三つの菌株のゲノム配列を登録

    新規登録の作成

    D-way (https://trace.ddbj.nig.ac.jp/D-way) にログインします。上部の DRA メニューから DRA のデータ登録一覧ページへ進みます。

    [New submission] をクリックし,新規登録を作成します。
    同時に,データ受付サーバ (dradata.ddbj.nig.ac.jp) に対応するディレクトリがホーム直下に作成されます。データファイルはこのディレクトリにアップロードします

    新規 DRA 登録の作成

    登録のステータスには以下のものがあります。"submission_validated" と "data_error" になった登録が査定されます。

    DRA 登録のステータス一覧
    ステータス 状態
    New メタデータの投稿前
    metadata_submitted メタデータが投稿された
    data_validating データファイルの検証処理中
    data_error データファイルの検証処理エラー
    submission_validated メタデータとデータファイルの検証処理が完了
    completed アクセッション番号が発行された
    confidential 公開用ファイルの作成処理が完了し,非公開に保たれている状態
    Public 公開されている状態

    シークエンスデータのアップロード

    メタデータを作成する前に登録するシークエンスデータファイルをアップロードします。先にメタデータを作成する場合は適当なファイルをアップロードしてください。

    ターミナルによるシークエンスデータの転送 (Linux/Mac OS X)

    ファイルを SCP 転送します。

    $ scp <Your Files> <D-way Login ID>@dradata.ddbj.nig.ac.jp:~/<DRA Submission ID>
    • <Your Files> 転送するファイル。例: file1 file2 (file1とfile2),file* (fileではじまる全てのファイル)
    • <D-way Login ID> D-way の Login ID (例 test07)
    • <DRA Submission ID> DRA 登録の Submission ID (例: test07-0018)
    • コマンドの例: scp strainA_1.fastq test07@dradata.ddbj.nig.ac.jp:~/test07-0018

    鍵を作成したときに指定したパスフレーズを入力します。

    Enter passphrase for key '/home/you/.ssh/id_rsa':	

    サーバにログインし,直接ファイルを操作することができます。サーバに SSH でログインします。

    $ ssh <D-way Login ID>@dradata.ddbj.nig.ac.jp

    鍵を作成したときに指定したパスフレーズを入力します。

    Enter passphrase for key '/home/you/.ssh/id_rsa':

    ログインに成功すると,次のコマンドプロンプトが表示されます。

    [test07@dradata ~]$

    サーバのログイン環境は,登録者専用のプライベート環境になっていて,登録者以外はアクセスすることができません。実行できるコマンドは下記のものに制限されています。

    ls cd cp mv rm more mkdir tar gzip gunzip bzip2 bunzip2 zip unzip

    WinSCP によるシークエンスデータの転送 (Windows)

    DRA への登録 ~データの転送 (Windows)~

    WinSCP (http://winscp.net/eng/download.php) をインストールし,起動します。

    以下のように設定した後, 右中央にある [Advanced...] をクリックします。

    転送モードはバイナリモードにします。テキストモードで転送しないでください。

    • File protocol: SFTP
    • Host name: dradata.ddbj.nig.ac.jp
    • Port number: 22
    • User name: (D-way の Login ID を入力)
    • Password: (空欄のまま)
    秘密鍵の登録1

    "Authentication" にある "Private key file" で,事前に作成した PuTTY 形式の秘密鍵を選択します。

    秘密鍵の登録2

    最後に,下中央にある [Login] をクリックします。

    winSCPへのログイン

    初回接続時には警告メッセージが表示されますが,“はい” を選択してください (次回から表示されません)。次の画面では,鍵を作成した際に指定したパスフレーズを入力します。

    ログインに成功すると,左側のウィンドウにユーザの PC のフォルダ,右側のウィンドウにデータ受付サーバの登録者専用ディレクトリが表示されます。 左側ウィンドウでファイルを選択し右側ウィンドウへドラッグ&ドロップし,サーバへファイルを転送します。

    ファイルの転送

    転送したファイルは,ファイルを選択し [削除] ボタンをクリックすることで削除できます。

    Cyberduck によるシークエンスデータの転送 (Mac OS X)

    DRA への登録 ~データの転送 (Mac)~

    Cyberduck (http://cyberduck.ch) をインストールし,起動します。

    トップ画面で “Open Connection” を選択します。

    open_connection

    使用する転送方式で “SFTP (SSH File Transfer Protocol)” を選択します。

    SFTP

    Cyberduck の起動画面で,以下のように設定し More Options の “Use Public Key Authentication” をチェックします。

    • Server: dradata.ddbj.nig.ac.jp
    • Port: 22
    • Username: (D-wayのLogin IDを入力)
    • Password: (空欄のまま)
    • Add to Keychain: (チェックを入れる)
    key_authentication

    秘密鍵 (private key) はデフォルトで “ユーザのホームフォルダ .ssh フォルダ (Finder からは見えない隠しフォルダ) > id_rsa” に保存されています。

    private_key

    初回接続時には警告メッセージが表示されますが “常に” を選択してください (次回から表示されません)。

    ログインに成功すると,データ受付サーバの登録者専用ディレクトリが表示されます。登録者の PC にあるファイルを選択しウィンドウにドラッグ&ドロップすることで,ファイルをサーバに転送します。

    transfer

    dradata.ddbj.nig.ac.jp サーバに秘密鍵を使って ssh でログインすることができます。 実行できるコマンドは下記のものに制限されています。
    ls cd cp mv rm more mkdir tar gzip gunzip bzip2 bunzip2 zip unzip

    DDBJ 大量登録システム (Mass Submission System, MSS) 用の登録ファイルでサイズがメール添付の上限を超えるような場合は DRA サーバを利用することができます。 MSS チームに連絡した後,ファイルを /submission/[submitter ID]/mass にアップロードします。

    ウェブツールでのメタデータ作成

    作成した新規登録をクリックし,登録詳細ページへ移動します。

    登録詳細ページへ移動
    登録詳細ページへ移動

    登録詳細ページ中の [Enter / Update metadata] をクリックし,メタデータ作成ツールを起動します。

    メタデータ作成ツールを起動
    メタデータ作成ツールを起動

    新規登録に対応するファイルサーバのディレクトリにデータファイルがアップロードされていない場合,下記のようなメッセージが表示されます。データファイルをアップロードします

    先にメタデータを作成しておきたい場合は,適当なファイルをアップロードしておきます。

    データファイルがアップロードされていない場合
    データファイルがアップロードされていない場合

    メタデータは Submission,BioProject,BioSample,Experiment,Run,Analysis (任意) オブジェクトで構成されています。 メタデータ作成ツールの画面上で,各項目に内容を英語で入力していきます。

    入力画面で必須項目は赤色のアスタリスク記号 () で示されています。

    画面の下部にある [Save] や次のオブジェクトへの移動ボタンをクリックすると入力内容がチェックされます。エラーが表示された場合は内容を修正してください。

    Submission

    公開予定日を2年以内に設定します。 登録者には実作業者と責任者を含む複数名を指定してください。登録者情報は一般に公開されません。

    Submission に登録情報を入力

    Study

    [register a project] をクリックして新規にプロジェクトを登録するか,もしくは,自身のアカウントで登録したプロジェクト一覧から,該当するものを1つ選びます。 従来通りプロジェクトを BioProject から個別に登録することもできます。

    複数のプロジェクトを登録することはできません。 自身のアカウント以外で取得されたプロジェクトを参照したい場合は DRA チームに連絡してください

    BioProject の新規登録,もしくは選択

    BioProject を新規登録する場合は左のタブから順番に内容を英語で入力していきます。二段目が BioProject になります。登録者などの情報は DRA Submission で入力した内容が引き写されます。

    各項目の説明は BioProject Handbook を参照してください。

    BioProject の新規登録

    ゲノムをアセンブルするプロジェクトでは,アセンブリに対してユニークな Locus tag prefix が必要です。

    [Project data type="Genome Sequencing" or "Metagenome"] AND [Capture="Whole"] AND [Objective="Sequence" or "Annotation" or "Assembly"] で Locus tag prefix 入力ボックスが現れます。

    プレフィックスには3文字以上の英数字のみを含めることができます。先頭は英文字にします。数字は2文字目以降で使用できます (例: A1C)。 シンボル (-_*) を含めることはできません。プレフィックスとタグの値はアンダースコア '_' で区切ります (例: A1C_00001)。

    WGS の登録のみで prefix を使用しない場合は入力欄を空にしてください。

    prefix は NCBI が一括管理しています。プロジェクトを投稿する段階で,NCBI に prefix を予約しにいきます。予約済みの場合はエラーになるので,再度希望する prefix を入力して投稿します。

    複数の prefix の取得を希望する場合は DRA チームに連絡します

    Locus tag prefix の取得

    最後の "OVERVIEW" で内容を確認したうえで [Submit BioProject] をクリックして投稿します。

    BioProject の投稿

    BioProject を投稿した後,Study では投稿したプロジェクトが選択されている状態になります。

    投稿されたプロジェクトが選択される

    Sample

    [register sample(s)] でサンプルを新規に登録するか,もしくは,自身のアカウントで作成した BioSample 一覧から,該当するものを全て選択します。

    一つのチェックボックスを選択し,続いて Shift キーを押しながら次のボックスをクリックすると,サンプルが範囲選択されます。 また,カラム上部のボックスにテキストを入力しサンプルを絞った状態で [Select filtered BioSamples] をクリックすると,フィルターされたサンプルが全て選択されます。

    自身のアカウント以外で取得された BioSample を参照したい場合は DRA チームに連絡してください

    BioSample の新規登録 or 選択

    BioSample を新規登録する場合は左のタブから順番に内容を英語で入力していきます。二段目が BioSample になります。登録者などの情報は DRA Submission で入力した内容が引き写されます。

    各項目の説明は BioSample Handbook を参照してください。

    BioSample の新規登録

    "SAMPLE TYPE" でサンプルの種類を選択します。ゲノム配列を取得したサンプルの場合,MIxS 基準を満たしたサンプル記述をする必要があります。

    Sample type については BioSample Handbook を参照してください。

    Sample type の選択

    Sample type に応じた属性入力用テンプレートファイルをダウンロードします。

    必須・任意・ユーザが定義した一連の属性でサンプルを記述することが,登録作業の中心になります。

    サンプル属性テンプレートファイルのダウンロード

    ファイルはタブで区切られているので,エクセルなどの表計算ソフトで編集することができます。一行目には属性名が記載されています。* が必須属性です。

    二行目以降に1行1サンプルで入力していきます。BioProject アクセッション番号が発行されていないプロジェクトの場合,bioproject_id には PSUB 番号を入力します。値がない属性には,適宜 "missing" や "not applicable" などを記入します。

    BioSample 属性の説明。独自の属性を追加したい場合は,右端に属性名と値を追加します。

    表計算ソフトでのサンプル属性入力

    最後の "OVERVIEW" で内容を確認したうえで投稿します。"ATTRIBUTES" で属性ファイルをダウンロードすることができます。

    BioSample の投稿

    BioSample を投稿した後,Sample では投稿したサンプルが選択されている状態になります。

    投稿されたサンプルが選択される

    Experiment

    初期状態では選択された BioSample と同数の Experiment と Run が自動生成され,それぞれの BioSample - Experiment - Run がリンクされています。Experiment/Run の自動生成は Experiment タブの初回表示時にのみ行われ,自動生成後に BioSample を選択し直した場合には自動生成されません。

    BioProject - BioSample (1) - Experiment (1) - Run (1)
    - BioSample (2) - Experiment (2) - Run (2)
    - BioSample (3) - Experiment (3) - Run (3)

    下の例では3つの Experiment が自動的に作成され,それぞれがユニークな BioSample を参照しています。

    [Add new Experiment(s)] で Experiment の追加,右端の [Delete] で Experiment の削除をすることができます。Run から参照されている Experiment は削除することができません。

    各 BioSample を参照している Experiment が自動的に作成される

    タブ区切りテキストファイルでまとめて Experiment を作成することができます。まず [Save] で内容を保存し,Alias (例 test07-0040_Experiment_0001 ~ 0003) を確定します。Alias はアクセッション番号が発行されるまでのオブジェクトの仮の名称になります。

    [Download TSV file] で内容をタブ区切りテキストファイルとしてダウンロードします。

    Save して Alias を確定し,タブ区切りテキストファイルをダウンロード

    エクセルなどの表計算ソフトでメタデータをまとめて作成することができます。

    "Title" は空であれば,自動的に "[Sequencing Instrument Model] [paired end] sequencing of [BioSample ID]" というタイトル(例 "Illumina HiSeq 2000 paired end sequencing of SAMD00025741")が構築されます。独自の Title を付けたい場合は,"Title" 欄にテキストを入力します。

    "BioSample Used" は "SSUB BioSample Submission ID" : "Sample name" (例 SSUB003746 : Genome bacteria strain A) で指定します。":" の両側の空白は無視されます。

    Experiment テンプレートファイル

    入力内容をタブ区切りテキストファイルとして保存し,選択したうえで [Upload TSV file] をクリックして読み込ませます。

    Experiment をタブ区切りテキストファイルとしてアップロード

    エクセルなどの表計算ソフト独自の形式ではなくタブ区切りテキストファイルとしてアップロードします。

    Run

    初期状態で選択された BioSample と同数の Experiment と Run が作成されており,それぞれの Run はユニークな Experiment を参照しています。

    下の例では3つの Run が作成され,それぞれが作成された Experiment を参照しています。

    [Add another Run(s)] で Run の追加,右端の [Delete] で Run の削除をすることができます。ファイルが紐づいている Run は削除することができません。

    Save して Alias を確定

    [Save] で Run の Alias を確定すると,内容をタブ区切りテキストファイルでまとめて編集できるようになります。

    [Select data files for Run] で Run とアップロードしたデータファイルをリンクする画面に移動します。

    ファイルと Run をリンクする画面へ移動

    ディレクトリにアップロードされているファイル一覧が表示されます。ファイルが属すべき Run の Alias を "Run/Analysis contains files" で選択します。

    続いて File typeMD5 Checksum を入力します。タブ区切りテキストファイルでまとめて内容を入力することができます。

    ペアリードが含まれるファイルは同じ Run に含めます。リード名からペアは自動で判定されます。Run に含まれているファイルは1つにまとめられます。

    リード長が一定ではない fastq ファイルの場合,filetype には "generic_fastq" を選択します。

    データファイルの属性を入力し Run に結び付ける

    Analysis (任意) が不要な場合は [Enter / Update metadata] をクリックし,メタデータを投稿します。

    DRA メタデータの投稿

    メタデータの投稿後,データファイルを検証する処理を開始します。"Validate uploaded data files to finish this submission" をクリックします。

    メタデータ投稿後,データファイルの検証に進む

    Analysis (任意)

    必要な数の Analysis を作成後,それぞれの Analysis について詳細を入力します。不要な Analysis は [Delete] ボタンで削除することができます。

    [Select data files for Analysis] ボタンをクリックし,ファイルと Analysis を結び付ける画面に移動します。

    Analysis の入力

    データファイルの属性を入力し,Analysis とリンクさせます。

    データファイルと Analysis のリンク

    [Enter / Update metadata] をクリックして内容を投稿し,データファイルの検証に進みます。Analysis 用のファイルは md5 しかチェックされません。

    XML でのメタデータ登録方法

    メタデータ作成ツールは technical read (アダプター,プライマーやバーコード配列) を記載することに対応していません。 「technical read を含む生データを登録する場合」や「DRA XML schema 中にはあるがツール中には無い項目をメタデータに記載する場合」は メタデータを XML ファイルで登録します。

    • メタデータ作成ツールでメタデータを作成し,投稿します。

    • "metadata_submitted" になった登録の Submission,Experiment,Run,Analysis (任意) を XML ファイルとしてダウンロードします。

    • ツールで作成したメタデータを XML としてダウンロード
    • XML を編集します。ファイル中のリードの構成を記載する SPOT_DESCRIPTOR については記入例を参考にしてください。 その他の項目については,DRA XML schema 中の説明を参照してください。

    • アクセッション番号が未発行の BioProject と BioSample を Experiment から参照する場合,以下のように記載します。

      <STUDY_REF>
        <IDENTIFIERS>
          <PRIMARY_ID label="BioProject Submission ID">PSUB004220</PRIMARY_ID>
        </IDENTIFIERS>
      </STUDY_REF>
      
      <SAMPLE_DESCRIPTOR>
        <IDENTIFIERS>
          <PRIMARY_ID label="BioSample Submission ID">SSUB003742 : sample name</PRIMARY_ID>
        </IDENTIFIERS>
      </SAMPLE_DESCRIPTOR>
      

    • XML を検証します。以下の Unix コマンドで XML をスキーマに対して検証することができます。エラーになる XML をアップロードすることはできません。

      xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.submission.xsd?view=co test07-0018.Submission.xml
      xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.experiment.xsd?view=co test07-0018.Experiment.xml
      xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.run.xsd?view=co test07-0018.Run.xml
      xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.analysis.xsd?view=co test07-0018.Analysis.xml
      

    • 編集した XML をアップロードします。Submission,Experiment,Run,Analysis (任意) の XML ファイルを選択し,同時にアップロードします。

      アップロードされた XML について「SRA xsd に対する妥当性」と「オブジェクト間の関係性」がチェックされます。エラーが発生した場合はファイルを修正してください。

    • 編集した XML のアップロード

    データファイルの検証

    転送したシークエンスデータファイルをアーカイブ用 SRA ファイルに変換する過程で MD5 値とシークエンスデータの整合性が検証されます。

    “Data Files” に「Run と Analysis (任意) のメタデータに記載されているファイル名」と「データ受付サーバにアップロードされたファイル名と MD5 値」が一覧表示されます。

    メタデータに記載されている全てのファイルがアップロードされている場合,[Validate data files] がクリックできる状態になります。

    アップロードされているファイルのうちメタデータに記載されていないものは無視されます。

    登録詳細画面中の [Validate data files] をクリックし,シークエンスデータファイルの検証処理を開始します。

    シークエンスデータの検証処理を開始

    検証処理は以下の順番で実行されます。

    MD5 Check

    メタデータに記載されている MD5 値と,実際のファイルの MD5 値とが一致するかチェックされ,一致しない場合はエラーが表示されます。 エラーの場合は [Enter / Update metadata] からメタデータを修正するか,ファイルを再アップロードしてください。

    Data Check

    シークエンスデータからアーカイブ用の SRA ファイルを作成します。この過程でシークエンスデータファイルのフォーマットとメタデータとの整合性が検証されます。 作成に失敗するとエラーが表示されます。エラーが発生した場合は [Stop validation] をクリックして検証処理を停止した後,メタデータを修正,もしくは,データファイルを再アップロードします。 ファイルサイズが大きい場合は検証処理に時間がかかります。

    問題が無ければ登録のステータスが "submission_validated" になり,検証 されたファイルが別ディレクトリに移されます。

    登録のステータスが "submission_validated" になると DRA スタッフが査定を始めます。 DRA スタッフから指示があるまで D-way を操作せずにお待ちください。

    data_error になった場合

    検証処理のいずれかのステップでエラーになると,ステータスが "data_error" になります。 [Stop validation] をクリックして検証処理を停止してから,メタデータの編集やファイルの再アップロードを行い,再度 [Validate data files] をクリックしてください。

    FAQ: データファイルの validation エラーへの対処方法は?

    検証処理を停止

    ステータスが "metadata_submitted" に戻るので,必要に応じてメタデータの修正,データファイルの再アップロードを行います。

    データを修正

    アクセッション番号の発行

    メタデータとシークエンスデータに問題がなければ,プレフィックス DR (Submission (DRA),Experiment (DRX),Run (DRR),Analysis (DRZ)) のアクセッション番号が発行され,ステータスが “completed” になります。アクセッション番号は “Component” に表示されます。

    また,Submission に記載されている登録者には,アクセッション番号がメールで通知されます。

    DRA アクセッション番号

    データ公開

    登録データのデータベースへの取り込みが完了するとステータスが "confidential" になり,即日公開が指定されている場合以外は,以下の原則に則り,データが公開されるまで非公開で保持されます。

    DRA では以下の場合にデータを公開しています。

    1. 登録者から公開依頼の連絡を受けた場合
    2. 登録者がアクセッション番号を公表した事を確認した場合。
      登録者以外の第三者が過失により他人のアクセッション番号を論文や学会等で公表した場合などは該当しません。
      公表とは,アクセッション番号を不特定多数の対象に知らせる行為 (学術論文,学会,インターネット,報道機関などを媒体とした発表) を指します。
    3. 公開予定日が到来した場合
    4. DRA Run (DRR) アクセッション番号を引用している DDBJ/EMBL-Bank/GenBank レコード (TSAWGS, CON など) が公開された場合

    B, C または D の場合は登録者の了解がなくても例外なく公開します。D の場合,引用されている DRR 番号を含む DRA 登録全体が公開されます。

    FAQ: BioProject/BioSample/塩基配列データの連動公開の仕組みは?

    データが公開されると,数日間のうちに DRASearch で検索可能になり NCBI SRA にミラーリングされます。

    DRA ファイルサーバに存在する fastq ファイル一覧: fastqlist

    オブジェクトは Submission 単位で公開されます。オブジェクトを異なる時期に公開したい場合は Submission を分けて登録してください。

    登録の更新

    各データベースにおける更新方法

    公開予定日の変更

    公開予定日は最長で2年後まで指定でき,繰り返し更新することができます。Hold Date の [Change] をクリックし,公開予定日変更ページに移動し,予定日を変更します。

    公開予定日の変更

    データを即日公開する場合は "Release Now" をクリックします。作業した日の深夜に公開処理が実施され,ftp にデータファイルが公開され,数日以内に DRA 検索システムにインデックスされます。

    メタデータの更新

    [Enter / Update metadata] からメタデータを編集します。編集不可項目はブロックされています。 必要な編集が完了後,メタデータ作成ツールの [Submit/Update DRA metadata] ボタンをクリックし,更新内容を DRA データベースに反映させます。

    関連する文献が公表された場合は,pubmed ID を含む文献情報を添えて BioProject チーム に追加を依頼します。

    データファイルの追加

    DRA では登録が完了した Run オブジェクトに直接データを追加することはできません。別の Submission で新しく Experiment-Run のセットを追加し,既存の BioProject や BioSample を参照することでデータを追加します。

    D-way にログインし,[New submission] をクリックし,新規 DRA 登録を作成します。 作成した新規登録でデータを追加する対象の BioProject と BioSample を選択します。

    • 新たにサンプルを追加する場合は BioProject を共有し,新規登録で BioSample - Experiment - Run を追加します。
    • 既存のサンプルにデータを追加する場合は BioProject と BioSample を共有し,新規登録で Experiment - Run を追加します。

    続いて DRA Experiment と Run タブで,Experiment,Run オブジェクトとデータファイルを追加します。

    メタデータを submit し,ファイルの検証処理を実行します。追加された Experiment/Run オブジェクトに対してアクセッション番号が発行されます。

    追加したデータに対応する BioProject 番号は同一ですが,Submission に対する DRA 番号は異なります。

    サンプルの追加
    サンプルの追加
    サンプルへのデータ追加
    サンプルへのデータ追加

    登録が完了した DRA 登録にデータファイルを直接追加する場合は DRA チームに連絡してください

    データの削除

    DRA チームに連絡してください

    補足: MD5 値

    MD5 (Message Digest Algorithm 5) はハッシュ関数であり,与えられたファイルに対してハッシュ値 (MD5値,32桁の英数字) を出力します。ファイルが破損していると MD5 値が変化します。 DRA では,到着したファイルの MD5 値の一致をチェックすることで,ファイルの破損がないかどうか確認しています。

    MD5 値の取得 (Linux)

    ファイルの MD5 値を取得します。

    $ md5sum file1 file2
    9F6E6800CFAE7749EB6C486619254B9C file1
    B636E0063E29709B6082F324C76D0911 file2

    MD5 値の取得 (Mac OS X)

    ファイルの MD5 値を取得します。

    $ md5 file1 file2
    9F6E6800CFAE7749EB6C486619254B9C file1
    B636E0063E29709B6082F324C76D0911 file2

    MD5 値の取得 (Windows)

    Fsum Frontend (http://sourceforge.net/projects/fsumfe/) をインストールし,起動します。
    まず, "md5" にチェックを入れてください。

    md5 を選択

    [+] ボタンをクリックし,必要なシークエンスデータファイルを開いてください。同時に複数のファイルを選択することが可能です。

    シークエンスデータファイルを選択

    最後に,[Calculate hashes] ボタンをクリックしてください。各ファイルの MD5 値が表示されます。[Export] ボタンから,MD5 値の一覧表 (.html, .csv, .xml) を作成することができます。

    MD5 値の計算を開始