メタデータ

概要*

メタデータにはランデータがどのようにして得られたのかが記載されています。メタデータは SubmissionStudyExperimentSampleRunAnalysis の6つのオブジェクトから構成されます。各オブジェクトは XML スキーマで定義されており,オブジェクト同士は相互に関連付けられています。プレフィックスで区別されたアクセッション番号が Submission (DRA),Study (DRP),Experiment (DRX),Sample (DRS),Run (DRR),Analysis (DRZ) オブジェクトに対して発行されます。メタデータとアクセッション番号体系は DRA/ERA/SRA 間で共通です。DRA アクセッション番号は論文中で引用することができます。参考文献

メタデータオブジェクト
メタデータオブジェクト
Submission

Submission は登録者の連絡先とデータの公開に関する情報を含みます。登録されたデータを「即日公開する」のか「2年を超えない一定の期間非公開にする」のかを指定します。一度公開されたデータを取り下げるときは DRA に連絡してください。

Study

Study には研究やプロジェクトの詳細を記載します。Study は必ず1つ以上の Experiment を持ちます。また,1つ以上の Analysis を持つこともできます。登録したデータを引用する関連文献に書かれるような,研究のタイトル,要約やプロジェクト名を記載します。関連文献が公表された場合は,その文献の PubMed ID を Study に追加してください。

さらに Study は BioProject ID という重要な要素を持っています。BioProject ID は大規模ゲノムシークエンシング,転写産物解析,エピジェネティックス解析といったプロジェクトに対して INSDC が発行する ID です。この ID は異なるデータベースに登録されたデータをグループ化するのに使われます。DRA に登録した生データに関連するデータを別のデータベースに登録する場合は BioProject ID を取得してください。DDBJ BioProject

Sample

Sample には Taxonomy などシークエンスしたサンプルに関する生物学的な情報を記載します。必須項目は最小限しかありませんが,サンプルの生物学的な情報は重要であるため,できるだけ多くの情報を "TAG-VALUE" ペアで記載してください (例: strain - 1234)。できるだけ GSC (Genomic Standards Consortium) で定義された語句を TAG 名に使うことを推奨します。GSC で定義された語句のリストは GSC wiki を参照してください。

Experiment

Experiment は個々の実験のセットアップ,シークエンス機器,ライブラリーの作成方法やデータを正しく解釈するために必要な情報を記載します。これらの内容が異なる Run に対しては別の Experiment を作成します。それぞれの Experiment は1つの Study と1つの Sample を参照します。プールされたデータはバーコード配列ごとに分割して登録することを推奨します。

Run

Run にはデータファイル,それからデータファイルと Experiment との関係を記載します。プールされたデータは,登録前にファイルをサンプルごとに分割し,分割されたファイルを別々の Run として登録することを推奨します。

Analysis

配列データを解析した結果をまとめたものです。別の研究で使用する予定,もしくは,アーカイブでの保存が必要なデータを登録します。INSDC メンバーが運営する他のデータベース (DDBJDOR など) に登録すべき解析データはそちらに登録します。例として,アノテーションデータや QC レポートなどが挙げられます。

メタデータ作成ツール中の項目*

* が付いている項目は必須です。
** が付いている項目は,その項目を含む要素を作成する場合に必須になります。

メタデータの記入例

必須*
条件によって必須*

Submission

Center Name

登録者が所属する組織に関する情報を記載します。

Center Name*

登録者が所属する組織の Center Name。Center Name リスト。DDBJ/EBI/NCBI SRA にデータを登録する際にはこの Center Name が必要です。

メタデータ作成ツールはアカウント情報から Center Name を自動的に取得します。

Center Name は登録の所有権を示すものではなく,SRA が運用上使用している略称です。所有権は Submitter に記載される登録者にあります。

Lab Name*
登録者が所属する研究室やグループ名。アカウントに登録されている "Lab/Group","Department (2)","Department (1)","Organization" がカンマで連結されたテキストが初期表示されます。

Hold Until

公開方法を指定します。

Hold Until*
公開予定日を設定します。最長で2年後まで設定でき,延長することができます。
Immediate Release*
即日公開。登録作業が終わり次第,データが公開されます。

Submitter

登録者の名前とメールアドレスのリストです。責任者 (principal investigator) を含めてください。登録に関する連絡は記入された全てのアドレスに対して行われます。責任者以外の人が登録作業をした場合,その作業者を含めてください。登録者情報は公開されません。登録者情報を明示したい場合は BioProject に記載してください。

Name*
登録者の名前。
E-mail*
登録者の電子メールアドレス。

BioProject

BioProject ID*
BioProject に登録済みのプロジェクトから該当するものを1つ選択するか,新規に BioProject を登録します。BioProject の登録方法は BioProject Handbook を参照してください。

BioSample

BioSample ID*
BioSample に登録済みのサンプルから該当するものを選択するか,新たにサンプルを登録します。BioSample の登録方法は BioSample Handbook を参照してください。

Experiment

Alias
自動的に Experiment に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。
BioSample Used*
Experiment が参照している BioSample を選択します。
Title*
検索結果で表示される Experiment の短いタイトル。 自動的に "[Sequencing Instrument Model] [paired end] sequencing of [BioSample ID]" というタイトル(例 "Illumina HiSeq 2000 paired end sequencing of SAMD00025741")が構築されます。 独自のタイトルを入力する場合は,Experiment の内容をタブ区切りテキストファイルとしてダウンロードし,Title カラムにユニークなテキストを入力しアップロードします。
Library Name
ライブラリーの名前。
Library Source*
ライブラリー構築に用いた試料。
Library Source Description
GENOMIC Genomic DNA (includes PCR products from genomic DNA).
TRANSCRIPTOMIC Transcription products or non genomic DNA (EST, cDNA, RT-PCR, screened libraries).
METAGENOMIC Mixed material from metagenome.
METATRANSCRIPTOMIC Transcription products from community targets.
SYNTHETIC Synthetic DNA.
VIRAL RNA Viral RNA.
OTHER Other, unspecified, or unknown library source material.
Library Selection*
シークエンスに用いたライブラリを構築するためのサンプルの選別や濃縮方法。
Library Selection Description
RANDOM Random shearing only.
PCR Source material was selected by designed primers.
RANDOM PCR Source material was selected by randomly generated primers.
RT-PCR Source material was selected by reverse transcription PCR.
HMPR Hypo-methylated partial restriction digest.
MF Methyl Filtrated.
repeat fractionation Selection for less repetitive (and more gene rich) sequence through Cot filtration (CF) or other fractionation techniques based on DNA kinetics.
size fractionation Physical selection of size appropriate targets.
MSLL Methylation Spanning Linking Library.
cDNA complementary DNA.
cDNA_randomPriming
cDNA_oligo_dT
PolyA PolyA selection or enrichment for messenger RNA (mRNA); should replace cDNA enumeration.
Oligo-dT enrichment of messenger RNA (mRNA) by hybridization to Oligo-dT.
Inverse rRNA depletion of ribosomal RNA by oligo hybridization.
ChIP Chromatin immunoprecipitation.
MNase Micrococcal Nuclease (MNase) digestion.
DNAse Deoxyribonuclease (DNase) digestion.
Hybrid Selection Selection by hybridization in array or solution.
Reduced Representation Reproducible genomic subsets, often generated by restriction fragment size selection, containing a manageable number of loci to facilitate re-sampling.
Restriction Digest DNA fractionation using restriction enzymes.
5-methylcytidine antibody Selection of methylated DNA fragments using an antibody raised against 5-methylcytosine or 5-methylcytidine (m5C)MBD2 protein methyl-CpG binding domain : Enrichment by methyl-CpG binding domain.
MBD2 protein methyl-CpG binding domain MBD2 protein methyl-CpG binding domain.
CAGE Cap-analysis gene expression.
RACE Rapid Amplification of cDNA Ends.
MDA multiple displacement amplification.
padlock probes capture method Padlock Probes capture strategy to be used in conjuction with Bisulfite-Seq.
other Other library enrichment, screening, or selection process.
unspecified Library enrichment, screening, or selection is not specified.
Library Strategy*
ライブラリーの構築手法。
Library Strategy Description
WGS Whole genome shotgun.
WGA Whole genome amplification.
WXS Random sequencing of exonic regions selected from the genome.
RNA-Seq Random sequencing of whole transcriptome.
miRNA-Seq Micro RNA and other small non-coding RNA sequencing.
ncRNA-Seq Capture of other non-coding RNA types, including post-translation modification types such as snRNA (small nuclear RNA) or snoRNA (small nucleolar RNA), or expression regulation types such as siRNA (small interfering RNA) or piRNA/piwi/RNA (piwi-interacting RNA).
ssRNA-seq strand-specific RNA sequencing
WCS Whole chromosome (or other replicon) shotgun.
CLONE Genomic clone based (hierarchical) sequencing.
POOLCLONE Shotgun of pooled clones (usually BACs and Fosmids).
AMPLICON Sequencing of overlapping or distinct PCR or RT-PCR products.
CLONEEND Clone end (5', 3', or both) sequencing.
FINISHING Sequencing intended to finish (close) gaps in existing coverage.
RAD-Seq Restriction Site Associated DNA Sequence
ChIP-Seq Direct sequencing of chromatin immunoprecipitates.
MNase-Seq Direct sequencing following MNase digestion.
DNase-Hypersensitivity Sequencing of hypersensitive sites, or segments of open chromatin that are more readily cleaved by DNaseI.
Bisulfite-Seq Sequencing following treatment of DNA with bisulfite to convert cytosine residues to uracil depending on methylation status.
EST Single pass sequencing of cDNA templates.
FL-cDNA Full-length sequencing of cDNA templates.
CTS Concatenated Tag Sequencing.
MRE-Seq Methylation-Sensitive Restriction Enzyme Sequencing strategy.
MeDIP-Seq Methylated DNA Immunoprecipitation Sequencing strategy.
MBD-Seq Direct sequencing of methylated fractions sequencing strategy.
Tn-Seq Gene fitness determination through transposon seeding.
FAIRE-seq Formaldehyde Assisted Isolation of Regulatory Elements
SELEX Systematic Evolution of Ligands by EXponential enrichment
RIP-Seq Direct sequencing of RNA immunoprecipitates (includes CLIP-Seq, HITS-CLIP and PAR-CLIP).
ChIA-PET Direct sequencing of proximity-ligated chromatin immunoprecipitates.
Hi-C Chromosome Conformation Capture technique where a biotin-labeled nucleotide is incorporated at the ligation junction, enabling selective purification of chimeric DNA ligation junctions followed by deep sequencing
ATAC-seq Assay for Transposase-Accessible Chromatin (ATAC) strategy is used to study genome-wide chromatin accessibility. alternative method to DNase-seq that uses an engineered Tn5 transposase to cleave DNA and to integrate primer DNA sequences into the cleaved genomic DNA
Targeted-Capture
Tethered Chromatin Conformation Capture
Synthetic-Long-Read binning and barcoding of large DNA fragments to facilitate assembly of the fragment
Other Library strategy not listed.
Library Construction Protocol

DNA の断片化 (DNA fragmentation)、アダプター配列などのライゲーション (DNA ligation) や濃縮 (DNA enrichment) 方法をフリーテキストで記載します。キットを使用した場合はキットの名前とバージョン (あれば) を含めます (例 Illumina Nextera DNA Library Preparation Kit)。

参考: Alnasir J, Shanahan HP. Investigation into the annotation of protocol sequencing steps in the sequence read archive. Gigascience. 2015 May 9;4:23. doi: 10.1186/s13742-015-0064-7. eCollection 2015. PMID: 25960871 (Open Access)

Instrument*
シークエンサの機種を選択します。
Instrument Model
454 GS
454 GS 20
454 GS FLX
454 GS FLX+
454 GS FLX Titanium
454 GS Junior
Illumina Genome Analyzer
Illumina Genome Analyzer II
Illumina Genome Analyzer IIx
Illumina HiSeq 1000
Illumina HiSeq 1500
Illumina HiSeq 2000
Illumina HiSeq 2500
Illumina HiSeq 3000
Illumina HiSeq 4000
Illumina MiSeq
Illumina HiScanSQ
HiSeq X Five
HiSeq X Ten
NextSeq 500
NextSeq 550
Helicos HeliScope
AB SOLiD System
AB SOLiD System 2.0
AB SOLiD System 3.0
AB SOLiD 3 Plus System
AB SOLiD 4 System
AB SOLiD 4hq System
AB SOLiD PI System
AB 5500 Genetic Analyzer
AB 5500xl Genetic Analyzer
AB 5500xl-W Genetic Analysis System
Complete Genomics
MinION
GridION
PromethION
PacBio RS
PacBio RS II
Sequel
Ion Torrent PGM
Ion Torrent Proton
AB 310 Genetic Analyzer
AB 3130 Genetic Analyzer
AB 3130xL Genetic Analyzer
AB 3500 Genetic Analyzer
AB 3500xL Genetic Analyzer
AB 3730 Genetic Analyzer
AB 3730xL Genetic Analyzer
Spot Type*
データファイル中のリード構成を選択します。
Spot TypeDescription
singleSingle read
paired (FF)Paired reads with same direction.
paired (FR)Paired reads with opposite direction.
Nominal Length*
ペアエンドライブラリを構築した際のインサートサイズ。
Nominal Sdev
インサートサイズの標準偏差
Spot Length*

データファイル中のリードの長さを記載します。ペアードの場合は両リードの合計長 (ギャップ長は除きます) を記入します。

  • Spot length が一定の場合,一定の値を記入
  • リード長が一定ではない 454 プラットフォームの場合,フロー数を記入
  • 不定長の fastq の場合,平均長を記入

Run

Alias
自動的に Run に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。
Title*
Run の短いタイトル。ユニークなタイトルを付けます。 検索結果で表示される Run の短いタイトル。 自動的に "[Sequencing Instrument Model] [paired end] sequencing of [BioSample ID]" というタイトル(例 "Illumina HiSeq 2000 paired end sequencing of SAMD00025741")が構築されます。 独自のタイトルを入力する場合は,Run の内容をタブ区切りテキストファイルとしてダウンロードし,Title カラムにユニークなテキストを入力しアップロードします。
Experiment Referenced*
Run が属する Experiment を選択します。

Data files for Run

Run に含めるデータファイルを選択します。

Run/Analysis
データファイルが Run もしくは Analysis に属しているのかを指定します。ウェブ画面上では入力できず,属している Run もしくは Analysis の alias が選択されると自動的に入力されます。タブ区切りテキストファイルで入力する場合には,Run もしくは Analysis を入力します。
File Name*
シークエンスデータファイル名。DRA サーバにアップロードされているファイル名が自動的に入力されます。
Run/Analysis contains files*
データファイルが属する Run を選択します。
File Type*
シークエンスデータのファイル形式。リード長が一定ではない fastq ファイルの場合は "generic_fastq",一定の場合は "fastq" を選択します。イルミナ qseq の場合,Run XML を編集して "Illumina_native_qseq" を入力します。
File Type Description
generic_fastq fastq files with variable read length
fastq fastq files with constant read length
sff 454 Standard Flowgram Format file
hdf5 PacBio hdf5 Format file
SOLiD_native SOLiD csfasta and qual files. # Support for this format is planned to be depracated in May, 2017.
bam Binary SAM format for use by loaders that combine alignment and sequencing data
tab A tab-delimited table maps "SN in SQ line of BAM header" and "reference fasta file"
reference_fasta Reference sequence file in single fasta format used to construct SRA archive file format. Filename must end with ".fa"
MD5 Checksum*
データファイルの MD5 チェックサム値。MD5 チェックサム値の取得方法

Analysis

Alias
自動的に Analysis に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。
Title*
Analysis オブジェクトのタイトル。
Description*
Analysis の内容を記述します。
Analysis Type*
Analysis の種類を選択します。アライメントデータは Run に登録します。
Analysis Type Description
De Novo Assembly A placement of sequences including trace, SRA, GI records into a multiple alignment from which a consensus is computed..
Sequence Annotation Per sequence annotation of named attributes and values.
Example: Processed sequencing data for submission to dbEST without assembly.
Reads have already been submitted to one of the sequence read archives in raw form.
The fasta data submitted under this analysis object result from the following treatments, which may serve to filter reads from the raw dataset:
    - sequencing adapter removal
    - low quality trimming
    - poly-A tail removal
    - strand orientation
    - contaminant removal.
Abundance Measurement Identify the tools and processing steps used to produce the abundance measurements (coverage tracks).

Data files for Analysis

Analysis に含めるデータファイルを選択します。

Run/Analysis
データファイルが Run もしくは Analysis に属しているのかを指定します。ウェブ画面上では入力できず,属している Run もしくは Analysis の alias が選択されると自動的に入力されます。タブ区切りテキストファイルで入力する場合には,Run もしくは Analysis を入力します。
File Name*
解析データのファイル名。
Run/Analysis contains files*
データファイルが属する Analysis を選択します。
File Type*
解析データのファイル形式。
File Type Description
bam Binary form of the Sequence alignment/map format for read placements, from the SAM tools project.
See http://sourceforge.net/projects/samtools/.
tab A tab delimited text file that can be viewed as a spreadsheet. The first line should contain column headers..
ace Multiple alignment file output from the phred assembler and similar programs.
See http://www.phrap.org/consed/distributions/README.16.0.txt for a description of the ACE file format..
fasta Sequence data format indicating sequence base calls.The format is simple: a header line initiated with the > character, data lines following with base calls..
wig The wiggle (WIG) format allows display of continuous-valued data in track format.This display type is useful for GC percent, probability scores, and transcriptome data.
See http://genome.ucsc.edu/goldenPath/help/wiggle.html for a description of the Wiggle Track format..
bed BED format provides a flexible way to define the data lines that are displayed in an annotation track.
See http://genome.ucsc.edu/FAQ/FAQformat#format1 for a description of the BED format..
vcf Variant Call Format.
See http://www.1000genomes.org/wiki/analysis/variant%20call%20format/vcf-variant-call-format-version-41 for a description of the VCF format.
maf Mutation Annotation Format
gff General Feature Format
csv
tsv
MD5 Checksum*
Analysis データファイルの MD5 チェックサム値。MD5 チェックサム値の取得方法補足

XML スキーマ*

メタデータの詳細は対応する XML スキーマ をご覧ください。XML Schemas (NCBI)