MAGE-TAB

概要*

DOR のデータ形式は MAGE-TAB version 1.1 です。 MAGE-TAB の詳細は MAGE-TAB Specification Version 1.1 をご覧ください。

MAGE-TAB は以下のファイルを使って研究内容を表現します。

IDF,SDRF,ADF とデータマトリックスファイルはタブ区切りテキストファイルです。

IDF には研究の概要,実験の変数,プロトコール,文献や連絡先情報を記載します。 さらに IDF では MAGE-TAB ファイルで使われる Controlled vocabulary term (コントロールされた語句) が由来するオントロジー体系,データベース名や特定のユーザコミュニティ向けのファイルを定義することができます。

SDRF には生物学的な材料から,ハイブリダイゼーション/シークエンシングを経て,データの取得や正規化に至るまでの一連の実験ステップを記載します。

ADF は ID によってデータファイルと生物学的配列に対するアノテーション情報をリンクします。 DOR に登録されていないアレイを使った場合,アレイデザインを DOR に登録します。 市販されているアレイの多くが ArrayExpress/DOR に登録されています。 ADF の詳細ページ

IDF の "SDRF File" フィールドに対になる SDRF ファイル名を記入し,IDF と SDRF をリンクします。 SDRF にデータファイル名と ADF ファイル名を記入し,SDRF をデータファイルと ADF にリンクします。

IDF,SDRF,ADF と生データファイル,解析処理されたデータファイル間の関係
IDF,SDRF,ADF と生データファイル,解析処理されたデータファイル間の関係

通常,登録データは1つの IDF ファイル,1つの SDRF ファイルと複数のデータファイルから構成されます。 アレイデータの場合,1つのハイブリダイゼーションに対応した1つの生データファイルを登録します。 シークエンシングデータの場合,1つのサンプルに対応した1つの生データファイルを登録します。 正規化されたデータファイルや,解析処理されたデータをまとめたマトリックスファイルを含めることができます。

基本的な規則*

ファイルには空白やタブから成る空行を含めることができます。 # で始まる行はコメントとみなされ無視されます。

"Name" で終わるカラム名 (例: Sample Name) のオブジェクトは "REF" で終わる名前のカラムから参照されます (例: Sample REF)。

MAGE-TAB の構成要素 (IDF,SDRF,ADF とデータマトリックス) では外部のオントロジーやデータベースに由来する語句を使うことができます。 IDF の Term Source REF で語句の参照元を指定します。

IDF,SDRF と ADF は行と列からなるタブ区切りの表です。 フィールドをダブルクォートで囲むことでタブや改行をエスケープさせ,フィールド区切り文字として解釈させないようにすることができます。 フィールド内のクォートはバックスラッシュでエスケープします。 カラムヘッダーをダブルクォートで囲むことはできますが,語句の間以外に空白を入れることはできません。

MAGE-TAB の詳細については MAGE-TAB Specification Version 1.1 を参照してください。

IDF: Investigation Description Format*

IDF は登録に関するトップレベルの情報を含むタブ区切りのテキストファイルです。 フィールドとそれに対する値のセットで情報を記入していきます。 多くのフィールドは複数の値を持つことができます。

IDF フォーマット*

IDF のフィールド一覧
MAGE-TAB Version1.1  
Investigation TitleText
Experimental DesignOntology termOntology term...
Experimental Design Term Source REFTerm Source NameTerm Source Name...
Experimental Design Term Accession NumberTerm Accession NumberTerm Accession Number...
Experimental Factor NameTextText...
Experimental Factor TypeOntology termOntology term...
Experimental Factor Term Source REFTerm Source NameTerm Source Name...
Experimental Factor Term Accession NumberTerm Accession NumberTerm Accession Number...
   
Person Last NameTextText...
Person First NameTextText...
Person Mid InitialsTextText...
Person EmailTextText...
Person PhoneTextText...
Person FaxTextText...
Person AddressTextText...
Person AffiliationTextText...
Person RolesOntology term (semicolon-delimited list)Ontology term (semicolon-delimited list)...
Person Roles Term Source REFTerm Source NameTerm Source Name...
Person Roles Term Accession NumberTerm Accession NumberTerm Accession Number...
   
Quality Control TypeOntology termOntology term...
Quality Control Term Source REFTerm Source NameTerm Source Name...
Quality Control Term Accession NumberTerm Accession NumberTerm Accession Number...
Replicate TypeOntology termOntology term...
Replicate Term Source REFTerm Source NameTerm Source Name...
Replicate Term Accession NumberTerm Accession NumberTerm Accession Number...
Normalization TypeOntology termOntology term...
Normalization Term Source REFTerm Source NameTerm Source Name...
Normalization Term Accession NumberTerm Accession NumberTerm Accession Number...
Date of ExperimentDate (YYYY-MM-DD)
Public Release DateDate (YYYY-MM-DD)
   
PubMed IDPubMed IDPubMed ID...
Publication DOIDOIDOI...
Publication Author ListTextText...
Publication TitleTextText...
Publication StatusOntology termOntology term...
Publication Status Term Source REFTerm Source NameTerm Source Name...
Publication Status Term Accession NumberTerm Accession NumberTerm Accession Number...
Experiment DescriptionText
   
Protocol NameIDID...
Protocol TypeOntology termOntology term...
Protocol Term Source REFTerm Source NameTerm Source Name...
Protocol Term Accession NumberTerm Accession NumberTerm Accession Number...
Protocol DescriptionTextText...
Protocol ParametersText (semicolon-delimited list)Text (semicolon-delimited list)...
Protocol HardwareTextText...
Protocol SoftwareTextText...
Protocol ContactTextText...
   
SDRF FileText
   
Term Source NameText tag as used in SDRFText tag as used in SDRF...
Term Source FileURIURI...
Term Source VersionTextText...

各行に記入する値の型を2列目に示しています。青色の行は1つの値しか持てませんが,黄色の行は複数の値を持つことができます。例えば "Person Last Name" には登録者のラストネームを必要な人数分記入します。 フィールドに複数の値を記入するときは,それらをセミコロンで区切ります (例: Protocol Parameters,Person Roles)。 セミコロンで区切られた語句は同じオントロジーに由来している必要があります。

オントロジーに由来する語句を使った場合は,対応する Term Source REF に語句の由来元を記載します。IDF の例を参照。 日付は YYYY-MM-DD 形式で記入します。

"Comment []" フィールドを使って自由に情報を付け足すことができます。 Comment の名前は [] に,その内容はカラムに記入します。 使用例:Comment[Goal] に研究のゴールを記載。 DOR では独自の Comment [] タグをいくつか使っています。

IDF に PubMed ID を記入し,登録データを引用した文献情報を記載します。PubMed ID や DOI を持たない文献は Publication 関連のタグにその情報を記入します。

IDF の例*

IDF の例
必須*
条件によって必須*

IDF

Investigation Title
研究全体に付けるタイトル。このフィールドは1つの値しか持てません。
Experimental Design
実験のデザイン。MGED Ontology の ExperimentDesignType subclasses.BiologicalProperty terms 中の語句を記入します。記入できる語句は制限されています。
Experimental Design Term Source REF
Experimental Design に記入した語句の由来元。Term Source Name に記載されたオントロジー名を記入します。
Experimental Design Term Accession Number
Experimental Design に記入した語句のアクセッション番号。Term Source Name に記載されたデータベース名を記入します。
Experimental Factor Name
実験の Experimental factor の名前。Experimental factor は実験の変数 (growth condition, genotype, organism part, disease state など) です。Factor の値は SDRF の "Factor Value []" カラムに記入します。MAGE-TAB ファイル中で Identifier として使われます。
Experimental Factor Type
Experimental factor の種類。MGED Ontology の ExperimentalFactorCategory subclasses.BioMaterialCharacteristicCategory terms 中の語句を記入します。記入できる語句は制限されています。
Experimental Factor Term Source REF
Experimental Factor Type に記入された語句の由来元。Term Source Name に記載されたオントロジー名を記入します。
Experimental Factor Term Accession Number
Experimental Factor Type に記入された語句のアクセッション番号。
Person Last Name
登録者のラストネーム。
Person First Name
登録者のファーストネーム。
Person Mid Initials
登録者のミドルネーム。
Person Email
登録者の E-mail アドレス (公開されません)。
Person Phone
登録者の電話番号 (公開されません)。
Person Fax
登録者の FAX 番号 (公開されません)。
Person Address
登録者の住所 (公開されません)。
Person Affiliation
登録者の所属する組織 (公開されます)。
Person Roles
Person の役割。Roles terms 中の語句を記入します。1人に対して複数の役割が必要な場合はセミコロン (";") で区切って記入します。例: "submitter;data_coder;investigator"。記入できる語句は制限されています。
Person Roles Term Source REF
Person Roles に記入された語句の由来元。Term Source Name に記載されたオントロジー名を記入します。
Person Roles Term Accession Number
Person Roles に記入された語句のアクセッション番号。
Quality Control Type
Quality control の方法。MGED Ontology の QualityControlDescriptionType terms 中の語句を記入します。記入できる語句は制限されています。
Quality Control Term Source REF
Quality Control Type に記入された語句の由来元。Term Source Name に記載されたオントロジー名を記入します。
Quality Control Term Accession Number
Quality Control Type に記入された語句のアクセッション番号。
Replicate Type
レプリケートの種類。MGED Ontology の ReplicateDescriptionType terms 中の語句を記入します。記入できる語句は制限されています。
Replicate Term Source REF
Replicate Type に記入された語句の参照元。Term Source Name に記載されたオントロジー名を記入します。
Replicate Term Accession Number
Replicate Type に記入された語句のアクセッション番号。
Normalization Type
正規化の種類。MGED Ontology の NormalizationDescriptionType terms 中の語句を記入します。記入できる語句は制限されています。
Normalization Term Source REF
Normalization Type に記入された語句の由来元。Term Source Name に記載されたオントロジー名を記入します。
Normalization Term Accession Number
Normalization Type に記入された語句のアクセッション番号。
Date of Experiment
実験が行われた日付。日付は "YYYY-MM-DD" 形式で記入します (例: 2011-01-01)。このフィールドは1つの値しか持てません。
Public Release Date
登録データが公開された日付。日付は "YYYY-MM-DD" 形式で記入します (例: 2011-10-10)。このフィールドは1つの値しか持てません。
PubMed ID
登録データを引用している文献の PubMed ID。
Publication DOI
登録データを引用している文献の Digital Object Identifier (DOI)。Pubmed ID がある場合は Pubmed ID のみを記載します。
Publication Author List
文献の著者リスト。
Publication Title
文献のタイトル。
Publication Status
文献のステータス (例: "submitted","in preparation","published")。記入できる語句は左記のものに制限されています。
Publication Status Term Source REF
Publication Status に記入された語句の由来元。Term Source Name に記載されたオントロジー名を記入します。
Publication Status Term Accession Number
Publication Status に記入された語句のアクセッション番号。
Experiment Description
実験をフリーテキストで記述します。このフィールドは1つの値しか持てません。
Protocol Name
プロトコールの名前。SDRF の "Protocol REF" で参照されます。MAGE-TAB ファイル中で Identifier として使われます。
Protocol Type
MGED Ontology の ExperimentalProtocolType terms 中の語句を記入します。記入できる語句は制限されています。
Protocol Description
プロトコールをフリーテキストで記述します。このテキストはタブで区切られた1フィールド内に収めます。テキストのなかにタブや改行を入れる場合は,テキスト全体をダブルクォートで囲みます。
Protocol Parameters
プロトコールの変数名。SDRF の "Parameter Value [<parameter name>]" で変数の値を記すときに参照されます。複数の変数がある場合,それらをセミコロン (";") で区切って記入します。MAGE-TAB ファイル中で Identifier として使われます。
Protocol Hardware
プロトコールで使われたハードウェア。
Protocol Software
プロトコールで使われたソフトウェア。
Protocol Contact
プロトコールに関する問い合わせ先。
Protocol Term Source REF
Protocol Type に記入された単語の由来元。Term Source Name に記載されたオントロジー名を記入します。例 MGED ontology,OBI。
Protocol Term Accession Number
Protocol Type に記入された単語のアクセッション番号。
SDRF File
IDF ファイルに付属する SDRF ファイルの名前。
Term Source Name
MAGE-TAB で使われたオントロジーやデータベース名。対応する全ての "Term Source REF" フィールドから参照されます。例: MGED Ontology,NCI MetaThesaurus,ArrayExpress。MAGE-TAB ファイル中で Identifier として使われます。
Term Source File
Term Source が参照しているファイル名や URI。
Term Source Version
MAGE-TAB で使われた Term Source のバージョン。
Comment[]
ユーザが独自に定義するフィールド。例えば "Comment [Goal]" を作成し,研究の目的を記入します。
*DOR は以下に示す独自の Comment カラムを使用しています。
Comment[BioProject ID]
登録データが属する BioProject の ID。BioProject ID は異なるデータベースに登録されたデータをグループ化するのに利用されます。詳細は DDBJ BioProject ウェブサイト をご覧ください。
Comment[DRA accession]
DOR 登録データの元となる生シークエンシングデータに対する DRA のアクセッション番号。この番号により,DOR データと DRA に登録された生データがリンクされます。生データと解析されたデータがセットで DOR に投稿された場合,DOR が DRA に生データを登録し,DRA アクセッション番号を自動で入力します。
Comment[Center Name]
リンクしている DRA 登録の Center name。
Comment[Laboratory Name]
リンクしている DRA 登録の Laboratory name。

SDRF: Sample and Data Relationship Format*

SDRF の最も重要なコンセプトは "Investigation Design Graph" です。 このグラフでノード (Node) は実験材料 (例: Sample,RNA extract,Labeled cDNA 等) やデータ (例: 生データや正規化されたデータファイル) に該当し, エッジ (Edge) はノード間の関係を表します。 ノードとエッジは属性 (Attribute) を持つことができます。 属性値は実験材料やデータを注釈する情報で,例えば Sample Name に対するサンプルの説明,エッジに対するプロトコール,ハイブリダイゼーションに対する生データファイルなどです。 IDF に記載されたプロトコールや外部オブジェクトへのポインターを属性値として使うことができます。

SDRF における Name と Attribute,他のオブジェクトへのポインター
SDRF における Name と Attribute,他のオブジェクトへのポインター

SDRF は「ハイブリダイゼーションチャンネルに対応した行」と「実験のステップを表した列」から構成されるテーブルです。 左から右に時系列で列を並べます。このテーブルの全体構成を下に示します。

SDRF 全体構成
SDRF 全体構成

図中のブロックは "Name" や "File" カラム (例: "Extract Name","Array Data File") で始まり,それらを修飾する一連の属性カラム (Attribute column) が続きます。 ブロック同士はプロトコール ,IDF の "Protocol Name" を参照する "Protocol REF" カラム,で区切られます。

IDF の Experimental Factor Name の値は SDRF の "Factor Value[]" カラムに記入します。 Factor Value[] は Hybridization セクションの右 (図で Scanning,Normalization and Data セクション中かその後) に作成します。

SDRF セクション*

Source

実験の出発材料について記述します。 このセクションは Source Name カラムで始まり,通常,1つの Material Type カラムといくつかの Characteristics カラムが続きます。

Sample

Sample は出発材料の Source に一連の実験処理を施して得られたサンプルです。

Extract

抽出された核酸を記述するセクションです。 核酸の抽出とクロマチン免疫沈降のステップを別々に記載する場合は Extract Name を2つ作成します。

Labeled Extract

Labeled Extract はアレイへのハイブリダイゼーションに用いられたラベルされた核酸です。 Labeled Extract Name 直後の Label カラムに使用したラベルを記入します。

Assay/Hybridization

Assay/Hybridization は SDRF の "Materials" と "Data" エリアをつなぐ要となるセクションです。 アレイ (Hybridization),もしくはシークエンシングを含むアレイ以外のアッセイ (Assay) について記述します。 Assay Name/Hybridization NameData Matrix ファイルのデータ列をアッセイ/ハイブリダイゼーションにリンクするために使われます。

Scan

ハイブリダイズされたアレイのスキャニングというイベントについて記述します。このセクションは任意です。 ハイブリダイズされたアレイを複数回スキャンしたが,データファイルのみからはそのことが分からない場合などに作成します。 Scan NameData Matrix ファイルのデータ列をスキャニングイベントにリンクするために使われます。

Array Data File

得られた生データファイルは Hybridization Name もしくは Assay Name と (任意の) Scan Name カラムに続く Array Data File カラムに記載します。

Normalization

正規化について記述する任意のセクションです。 Normalization Name カラムで「正規化」というイベントを表します。 Normalization NameData Matrix ファイルのデータ列を正規化イベントにリンクするために使われます。

Derived Array Data File

1つのアッセイ/ハイブリダイゼーション (スキャンや正規化) につき,1つの解析処理されたデータファイルが対応している場合, そのファイル名を Derived Array Data File に記載します。 ファイルが複数のアッセイ/ハイブリダイゼーションに由来するデータを含んでいる場合, データをデータマトリックスファイルに整形し Derived Array Data Matrix File カラムにファイル名を記載します。

SDRF の例*

SDRF の例
必須*
条件によって必須*

SDRF

Source Name
Source の名前。 MAGE-TAB ファイル中で Identifier として使われます。
以下のカラムで Source Name を注釈できます:
Sample Name
Sample の名前。MAGE-TAB ファイル中で Identifier として使われます。
以下のカラムで Sample Name を注釈できます:
Extract Name
Extract の名前。 MAGE-TAB ファイル中で Identifier として使われます。
以下のカラムで Extract Name を注釈できます:
Labeled Extract Name
Labeled Extract の名前。ラベル名を含めることを推奨します。 MAGE-TAB ファイル中で Identifier として使われます。
以下のカラムで Labeled Extract Name を注釈できます:
Hybridization Name
Hybridization の名前。 MAGE-TAB ファイル中で Identifier として使われます。
以下のカラムで Hybridization Name を注釈できます:
Assay Name
Assay の名前。"Assay Name" は "Hybridization Name" のかわりに一般的な生物学的アッセイ,シークエンシングや RT-PCR,を記載するために使います。 DOR へのマイクロアレイデータの登録ではこのカラムを使わないでください。全ての Assay Name には Technology Type カラムを付加します。 MAGE-TAB ファイル中で Identifier として使われます。
以下のカラムで Assay Name を注釈できます:
Scan Name
Scan イベントに対する名前 (任意)。MAGE-TAB ファイル中で Identifier として使われます。
以下のカラムで Scan Name を注釈できます:
Normalization Name
Normalization イベントに対する名前 (任意)。 MAGE-TAB ファイル中で Identifier として使われます。
以下のカラムで Normalization Name を注釈できます:
Array Data File
生データファイル のリスト。 SDRF の各行に対応するデータファイル名を記載し,データファイルと対応するハイブリダイゼーションやアッセイを結び付けます。
以下のカラムで Array Data File を注釈できます:
Derived Array Data File
解析処理されたデータファイルのリスト。 SDRF の各行に対応するデータファイル名を記載し,データファイルと対応するハイブリダイゼーションやアッセイを結び付けます。
以下のカラムで Derived Array Data File を注釈できます:
Array Data Matrix File
複数のハイブリダイゼーションやアッセイからの生データを1つにまとめたマトリックスファイル名のリスト。 データファイルと対応するハイブリダイゼーションやアッセイとの対応付けはデータマトリックスファイル中で行います。
以下のカラムで Array Data Matrix File を注釈できます:
Derived Array Data Matrix File
複数のハイブリダイゼーションやアッセイからの解析処理されたデータを1つにまとめたマトリックスファイル名のリスト。 データと対応するハイブリダイゼーションやアッセイ (もしくはスキャン,正規化) との対応付けはデータマトリックスファイル中で行います。
以下のカラムで Derived Array Data Matrix File を注釈できます:
Image File
画像ファイル名のリスト (任意)。SDRF の各行に対応するファイル名を記載し,画像データファイルと対応するハイブリダイゼーションやアッセイをリンクします。DOR は画像データを保存していません。登録者のサーバに保存された画像ファイルへのリンクを記載することができます。
以下のカラムで Image File を注釈できます:
Array Design REF
ハイブリダイゼーションで使われたアレイデザイン。 アレイデザインに対する ArrayExpress/DOR のアクセッション番号を記載します (例: "A-DORD-1")。
以下のカラムで Array Design REF を注釈できます: 上記の Term Source REF にはアレイデザインが登録されているデータベース名を記載します。 ArrayExpress/DOR 以外は記載できず,実際の登録処理ではこのカラムは無視されます。
Protocol REF
IDF に記載されている Protocol Name や登録済みのプロトコールに対するArrayExpress/DOR のアクセッション番号。
以下のカラムで Protocol REF を注釈できます: IDF でプロトコールが定義されていない場合,Term Source REF にプロトコールの参照元のデータベース名を記載します。 ArrayExpress/DOR 以外は記載できません。
Characteristics[]
記入できる語句や測定単位は制限されています。Source NameSample NameExtract NameLabeled Extract Name に続く注釈カラム (Attribute column)。 カラムヘッダーの [<category term>] にカテゴリーを記入します。 例えば,"Characteristics[OrganismPart]" には OrganismPart を記入します。 Category term にはユーザが定義する語句 (デフォルト),Term Source REF で定義された外部のオントロジーに由来する語句,もしくは,Unit[] によって示された測定単位を記入することができます。
以下のカラムで Characteristics[<category term>] を注釈できます:
Provider
Source Name の注釈カラムとして使います。 Source が得られた組織や個人をフリーテキストで記述します。
Material Type
記入できる語句は制限されています。 Source NameSample NameExtract NameLabeled Extract Name に続く注釈カラム (Attribute column)。 マテリアルを記述するのに使います。MGED オントロジーの MaterialType を記入します。 例: whole_organism,organism_part,cell,total_RNA。
以下のカラムで Material Type を注釈できます: Term Source REF カラムは Material Type が由来する IDF で定義されたオントロジーを参照します。
Label
記入できる語句は制限されています。 Labeled Extract Name に続く注釈カラムとして使えます。Labeled Extract を作成するため Extract に結合された標識化合物名。 MGED オントロジーの LabelCompound を使います。 例: Cy3,Cy5,biotin,alexa_546。
以下のカラムで Label を注釈できます: Term Source REF カラムは Label が由来する IDF で定義されたオントロジーを参照します。
Technology Type
記入できる語句は制限されています。 Assay Name に続く注釈カラムとして使えます。ハイブリダイゼーション以外の一般的なアッセイのタイプを記入します。例: high_throughput_sequencing。
以下のカラムで Technology Type を注釈できます: Term Source REF カラムは Technology Type が由来する IDF で定義されたオントロジーを参照します。
Factor Value[]
記入できる語句は制限されています。SDRF の各行に対応する Experimental factor (実験の変数)。カラムの先頭で IDF で定義された Experimental Factor Name を記載します。
以下の IDF の場合: 以下に IDF で "Mouse Anatomy" の Term source を定義した場合の使用例を示します。
Factor Value[Tissue] Term Source REF
brainMouse Anatomy
kidneyMouse Anatomy
liverMouse Anatomy
intestineMouse Anatomy
pancreasMouse Anatomy
このカラムの内容はユーザが定義する語句 (デフォルト),Term Source REF で示された外部のオントロジーに由来する語句,もしくは,Unit[] によって示された測定単位を記入することができます。 上記例でカラムの内容は organism part を記載しているものとして取り扱われます。 さらに詳細な情報を追加するときは "Factor Value [] ()" 形式を使います。例: "Factor Value [growth condition] (Nutrients)"。
Performer
Protocol REF に続く注釈カラム。 プロトコールを実行した研究者の名前やセンター名。 シークエンシングプロトコールの場合、この内容は DRA 登録の run center name として使われます。
Date
Protocol REF に続く注釈カラム。 プロトコールが実施された日付 (と時間) を YYYY-MM-DDThh:mm:ssZ 形式で記載します (例: 2008-09-12T16:27:27Z)。
Parameter Value[]
Protocol REF に続く注釈カラム。 カラムヘッダーで参照されている Protocol parameters の値。
以下のカラムで Parameter Value[] を注釈できます: IDF で Protocol Name "Array Hybridization" が Protocol Parameters "hybridization temp;hybridization volume" と一緒に記載されている場合,以下のように SDRF を作成できます。
Unit[]
記入できる語句は制限されています。Characteristics[]Factor Value[] もしくは Parameter Value[] に続く注釈カラム。 前のカラムに記載された値の単位を記載します。単位の種類を [] に含めます,例:Unit[TimeUnit]。 MGED オントロジーの Unit サブクラス を使います。
以下のカラムで Unit[] を注釈できます: Term Source REF カラムは Unit で使われた語句が由来する IDF で定義されたオントロジーを参照します。
Description
Source NameSample NameExtract Name もしくは Labeled Extract Name に続く注釈カラム。 フリーテキストで Material を記述します。できるだけ Characteristics[] を使用し,コントロールされた語句で Material を記載してください。
Term Source REF
コントロールされた語句を使用するカラム (例: Characteristics[]),もしくは外部オブジェクトを参照しているカラム (例: Protocol REF) で使用します。 前のカラムで使用された語句が由来する IDF で定義されたオントロジーやデータベースの Term Source を参照します。
以下のカラムで Term Source REF を注釈できます:
Term Accession Number
Term Source REF の注釈カラム。 Term Source で指定されたオントロジーやデータベースにおけるアクセッション番号。
以下の例は付随する IDF の Term Source で "NCI Metathesaurus" が定義されていることが前提になっています。
Comment[]
今までに列挙されたカラムを注釈するために使います。 このカラムは MAGE-TAB に拡張性を付与するために存在しますが,意味のある生物学的な情報を記載するために使うことはできません。 値のタイプを [] に記入します。

SDRF カラムヘッダーのまとめ*

"Name" と "File" ノードはグラフエッジである "Protocol REF" で連結されます (Protocol REF 以外のエッジはありません)。 1つ以上の属性値カラムで各ノードとエッジを注釈することができます, 例: "Source Name" に対する "Provider"; "Parameter Value []" に対する "Unit"。 属性値カラムはそれらが注釈する各ノードとエッジの直後に作成します。 同様に,オントロジーに由来する語句の直後に "Term Source REF" を作成し,語句が由来するオントロジーを記載します (を参照)。

下の表は SDRF テーブルの各ノードとそれに対して使用できる属性値をリストしています。

SDRF 属性値とノードとの対応関係 - ノードとエッジカラム
Node/Edge Associated nodes/attributes
Source Name Characteristics, Provider, Material Type, Description, Comment
Sample Name Characteristics, Material Type, Description, Comment
Extract Name Characteristics, Material Type, Description, Comment
Labeled Extract Name Characteristics, Material Type, Description, Label, Comment
Hybridization Name Array Data File, Derived Array Data File, Array Data Matrix File, Derived Array Data Matrix File, Array Design File / REF, Technology Type, Comment
Assay Name Technology Type, Array Data File, Derived Array Data File, Array Data Matrix File, Derived Array Data Matrix File, Array Design File / REF, Comment
Scan Name Array Data File, Derived Array Data File, Array Data Matrix File, Derived Array Data Matrix File, Comment
Normalization Name Derived Array Data File, Derived Array Data Matrix File, Comment
Array Data File Comment
Derived Array Data File Comment
Array Data Matrix File Comment
Derived Array Data Matrix File Comment
Image File Comment
Array Design File / REF Term Source REF, Comment
Protocol REF Term Source REF, Parameter, Performer, Date, Comment
SDRF 属性値とノードとの対応関係 - 属性値カラム
Attribute Associated attributes
Characteristics[] Unit, Term Source REF
Provider Comment
Material Type Term Source REF
Technology Type Term Source REF
Label Term Source REF
Factor Value[]() Unit, Term Source REF
Performer Comment
Date Parameter Value[]
Unit, Comment, Term Source REF Unit[]
Term Source REF Description
Term Source REF Term Accession Number
Term Accession Number Comment[]

SDRF カラムヘッダーの順序と記載可能な数*

Protocol REF 以外の SDRF カラムは以下の表に示す順序と数で記載する必要があります。 ノードや属性値は注釈する要素の直後に設置します。 要素が1つ以上の属性を持つ場合,以下の場合を除き属性の記載順序に制約はありません。

  • Factor Value: 全てのノードやそれに対する属性の後に設置します。
  • Comment: コメントを付加するノードや属性の直後に設置し,Comment と Comment がコメントしている要素との関係を明確にします。
  • Term Source REF: オントロジーに由来する語句の直後に設置します。これにより Term Source REF で参照しているオントロジーとそれに由来する語句との関係が明確になります。
SDRF カラムの順序と記載可能な数
Element Nodes and Factor Values Cardinality Notes
Source Name 0..1
Sample Name 0..*
Extract Name 0..*
Labeled Extract Name 0..1
Hybridization Name 0..1 Assay Name もしくは Hybridization Name のどちらかを記載することができます。
Assay Name 0..1 Assay Name もしくは Hybridization Name のどちらかを記載することができます。
Scan Name 0..*
Image File 0..*
Array Data File 0..*
Array Data Matrix File 0..*
Normalization Name 0..*
Derived Array Data File 0..*
Derived Array Data Matrix File 0..*
Factor Value 0..*
Protocol REF 0..*
注釈する要素に対して記載可能な属性の数
Attributes - all are optional Cardinality Notes
Characteristics 0..*
Provider 0..1
Material Type 0..1
Label 0..1
Array Design File 0..1
Array Design REF 0..1
Technology Type 0..1 Assay Name もしくは Hybridization Name に対する属性。
Performer 0..1
Date 0..1
Parameter Value 0..*
Unit 0..1
Description 0..1
Term Source REF 0..1
Term Accession Number 0..1
Comment 0..*

シークエンシングデータの場合に必要な項目*

上記に記載した IDFSDRF の情報に加え,以下の項目が必要です。

IDF*

  • シークエンシングのプロトコール (Protocol Type="sequencing") を記載し,用いられたシークエンス機器を Protocol Hardware に記載します。
    記入可能なシークエンス機器名:
    454 GS,454 GS 20,454 GS FLX,454 GS FLX Titanium,454 GS Junior,Illumina Genome Analyzer,Illumina Genome Analyzer II,Illumina Genome Analyzer IIx,Illumina HiSeq 2000,Illumina HiSeq 1000,Illumina MiSeq,AB SOLiD System,AB SOLiD System 2.0,AB SOLiD System 3.0,AB SOLiD 4 System,AB SOLiD 4hq System,AB SOLiD PI System,AB SOLiD 5500,AB SOLiD 5500xl,Helicos HeliScope,Complete Genomics,PacBio RS,Ion Torrent PGM,unspecified

SDRF*

  • Assay NameTechnology Type="high_throughput_sequencing" を含めます。
  • Assay Name の前の Protocol REF カラムで IDF に記載したシークエンシングプロトコールを参照します。
  • Performer をシークエンシングプロトコールに付与します - DRA データの run center name として使われます。
  • Array Data File に生データファイル名を記載し,直後の Comment[FILE_TYPE] にファイルフォーマットを sff,Illumina_native_qseq,Illumina_native_fastq,SOLiD_native_csfasta,SOLiD_native_qual,Helicos_native から選択して記入します。必要な生データファイルについてはこちらをご覧ください。
  • Extract Name の後ろに以下の4つの Comment[] カラムを追加し,ライブラリーがどのように作成されたのかを記載します。
    • Comment[LIBRARY_LAYOUT] - SINGLE もしくは PAIRED。
      PAIRED の場合は後ろに以下のカラムを作成し,値を記載します。
      • Comment[ORIENTATION]
      • Comment[NOMINAL_LENGTH]
      • Comment[NOMINAL_SDEV]
    • Comment[LIBRARY_SOURCE] - GENOMIC,TRANSCRIPTOMIC,METAGENOMIC,METATRANSCRIPTOMIC,NON GENOMIC,SYNTHETIC,VIRAL RNA,OTHER から1つ選択
    • Comment[LIBRARY_STRATEGY] - WGS,WXS,RNA-Seq,WCS,CLONE,POOLCLONE,AMPLICON,CLONEEND,FINISHING,ChIP-Seq,MNase-Seq,DNase-Hypersensitivity,Bisulfite-Seq,EST,FL-cDNA,CTS,MRE-Seq,MeDIP-Seq,MBD-Seq,OTHER から選択。
    • Comment[LIBRARY_SELECTION] - RANDOM,PCR,RANDOM PCR,RT-PCR,HMPR,MF,CF-S,CF-M,CF-H,CF-T,MSLL,cDNA,ChIP,MNase,DNAse,Hybrid Selection,Reduced Representation,Restriction Digest,5-methylcytidine antibody,MBD2 protein methyl-CpG binding domain,CAGE,RACE,size fractionation,other,unspecified から選択。

シークエンス機器に関する情報*

SDRFAssay Name の後ろの Comment[] カラムに以下の値を記載します。


DRA のメタデータについては DRA ウェブサイトを参照してください。