データファイル

アレイデータ*

概要*

DOR のデータ登録において生データファイル (Raw data file),正規化/加工されたデータファイル (Normalized/Processed data file) とデータマトリックスファイル (Data matrix file) がどのように関連しているのかを示しています。

生データ,正規化/解析処理されたデータファイルとデータマトリックスファイル
生データ,正規化/解析処理されたデータファイルとデータマトリックスファイル

DOR でサポートしているアレイ由来のデータファイルは「Affymetrix データ」と「それ以外」の大きく2つに分かれます。 Affymetrix 以外のデータは,カラムヘッダーをそのまま残した ASCII タブ区切りテキストファイルで登録します。 MAGE-TAB はカラムヘッダーでデータファイルの種類と Quantitation type を判定しています。 データベースにロードする過程で,認識されたファイルは Block Column-Block Row 形式に変換され,フィーチャの座標とカラムヘッダーは除去されます。

Affymetrix の生データは CEL ファイルです。他のプラットフォームではアレイの全てのスポットのシグナル強度,バックグラウンドのシグナル強度などを含んだファイルを登録します。例: GenePix .gpr ファイル, Agilent Feature Extraction software .txt ファイル。

よく用いられる生データ,正規化されたデータ,データマトリックスのファイル形式
Data TypeFile Format
RawCEL, gpr or .txt
NormalizedCHP, gpr or .txt
Combined Data Matrix File.txt

生データファイル*

DOR はファイル中のカラムヘッダー行を既知のヘッダーセットにマッチさせることでファイル形式を判定しています。 編集されていない生データファイルを DOR に登録してください。

Generic
Block Column/Block Row ファイルは以下のカラムヘッダーで認識されます:
Block ColumnBlock RowColumnRow
Affymetrix
MAGE-TAB は 古い GDAC 形式と新しい GCOS/XDA 形式の両方を使って CEL と EXP ファイルを認識します。 これらのファイルは MAGE-TAB パッケージに含まれる Affymetrix parser によって処理されます。 正規化された Affymetrix データを参照。

GenePix
GenePix ファイルは以下のカラムヘッダーで認識されます:
BlockColumnRowXY
Agilent
以下のカラムヘッダーを含むファイルは Agilent ファイルとして認識されます:
RowColPositionXPositionY
ScanAlyze
以下のカラムヘッダーは ScanAlyze ファイルからのものだと認識されます:
GRIDCOLROWLEFTTOPRIGHTBOT
ScanArray/QuantArray
ScanArray Express ファイルは以下のカラムヘッダーで認識されます:
Array ColumnArray RowSpot ColumnSpot RowXY
古い QuantArray 形式は以下のカラムヘッダーで認識されます:
Array ColumnArray RowColumnRow
ArrayVision
ArrayVision ファイルは以下のカラムヘッダーで認識されます:
PrimarySecondary
新しい "lg2" ArrayVision ファイルは以下のカラムヘッダーで認識されます:
Spot labels
Spotfinder
Spotfinder ファイルは以下のカラムヘッダーで認識されます:
MCMRSCSR
BlueFuse
BlueFuse ファイルは以下のカラムヘッダーで認識されます:
COLROWSUBGRIDCOLSUBGRIDROW
UCSF Spot
UCSF Spot ファイルは以下のカラムヘッダーで認識されます:
Arr-colxArr-colySpot-colxSpot-coly
NimbleScan
NimbleScan ファイル (Feature,Probe と Pair) は以下の全てのカラムヘッダーを含んでいます:
PROBE_IDXY
Applied Biosystems
Applied Biosystems ソフトウェアから出力されるファイルは以下のカラムヘッダーを含んでいます:
Probe_IDGene_ID
ImaGene
ImaGene ファイルは以下のカラムヘッダーで認識されます:
Meta ColumnMeta RowColumnRowFieldGene ID
ImaGene 3.0 ファイルは以下のヘッダーで認識されます:
Meta_colMeta_rowSub_colSub_rowNameSelected
CSIRO Spot
CSIRO Spot ファイルは以下のカラムヘッダーで認識されます:
grid_cgrid_rspot_cspot_rindexs
この方法はファイルタイプを判定する確実な方法ではありません。 データファイルを MAGE-TAB で処理した際に問題があれば DOR に知らせてください:

正規化されたデータファイル*

正規化されたデータファイルは以下のどちらのファイル形式でも登録可能です。 ファイルは Reporter もしくは Composite Element を特定できるカラムヘッダーを使い処理されます。

一般的な正規化されたデータ:

正規化されたデータがアレイデザイン各行の ID に対応している場合, ID を含むカラムを使ってデータを MAGE-TAB に含めることができます。 この ID には Reporter Name (Reporter REF) もしくは Composite Element Name (Composite Element REF) を使います。 これらの ID の種類については ADF ページを参照してください。

以下のカラムヘッダーセットのどちらでも使うことができます:

Reporter REF<QT1><QT2><QT3>
Composite Element REF<QT1><QT2><QT3>

<QT1>,<QT2> etc は定量化方法 (Quantitation type) の名前です。

正規化された Affymetrix データ:

MAGE-TAB は 古い GDAC 形式と新しい GCOS/XDA 形式の両方を使って CEL と EXP ファイルを認識します。 これらのファイルはローダに含まれる Affymetrix parser によって処理されます。 Affymetrix 以外の方法 (例: RMA 法) で正規化された Affymetrix データも認識されます。 Composite Element Name (上述),もしくは以下のカラムヘッダーを使うことができます:

ProbeSet ID<QT1><QT2><QT3>
ProbeSet Name<QT1><QT2><QT3>
<QT1>,<QT2> etc は Quantitation type の名前です。

データマトリックスファイル*

MAGE-TAB は各行が遺伝子 (やその他の生物学的実体,エクソンやゲノム上の領域など) に,各列がサンプルや実験条件に対応した1つのデータマトリックスファイルを持つことができます。

マトリックスファイルの最大の特徴は,データ列が特定の生データファイルやサンプルといった SDRF の Name オブジェクトにリンクされている点です。 この参照関係により,生物材料やその特性 (特に実験変数) と解析処理されたデータ列とがリンクされます。 データマトリックスファイル名は SDRF の "Array Data Matrix File" と "Derived Array Data Matrix File" カラムに記載します。 それぞれ「生データ」か「解析処理されたデータ」かの違いはありますが,両者のファイル形式は同じです。

マトリックスファイルは2つのヘッダー行を持っています。 最初のヘッダー行は SDRF の "Name" オブジェクトへのリファレンスです。 二行目のヘッダーは 'signal','p-value' もしくは 'log ratio(Cy3/Cy5)' といった定量方法 (Quantitation type) です (これらは単なるラベルであり,具体的な定量方法はプロトコールに記載します)。 二行目の左端には一列目で使用している ID のタイプを記入します。
ID のタイプは以下の内のどれかになります。

  • "Reporter REF" もしくは "Composite Element REF",各行がそれぞれ ADF の "Repoter Name" もしくは "Composite Element Name" に対応します。 通常はこれらを使用します。
  • IDF で定義された "Term Source REF:<tag>" (例: "Term Source REF:ddbj",ここで "ddbj" は Term Source Name) 形式で示された Term Source タグ。これは各行を公共データベース中のエントリにマッピングさせるのに使用されます。
  • ゲノムビルド: "Coordinates REF:<version>" (例: "Coordinates REF:ncbi34")。ビルドのバージョンは IDF の他の Term Source と同様な形式で記載します。これは各行のデータを遺伝子レベルのアノテーションが存在しない染色体座標にリンクさせるときに使います。

ADF のアレイデザインから各行のアノテーション情報を取得できないとき,MAGE-TAB はバーチャルなアレイデザインを作成します。 マトリックスデータは Experimental Factor などの値に自動的にマッピングされます。

SDRF の例を下図 (a) に,"Hybridization" にリンクしているマトリックスファイルを (b) に示します。(d) は SDRF "Scan" にリンクされている場合です。 (c) は SDRF,マトリックスファイル,ADF との関係を示しています。

(a) SDRF
Sample
Name
Characteristics
[Organism]
Characteristics
[OrganismPart]
Protocol
REF
Hybridization
Name
Array
Design REF
Scan
Name
Array Data
Matrix File
Protocol
REF
Derived Array Data
Matrix File
liver 1 Homo sapiens liver P-DORD-1 hyb 1 HG_U95A Scan1 CELData.txt P-DORD-2 Matrix.txt
kidney 1 Homo sapiens kidney P-DORD-1 hyb 2 HG_U95A Scan2 CELData.txt P-DORD-2 Matrix.txt
brain 1 Homo sapiens brain P-DORD-1 hyb 3 HG_U95A Scan3 CELData.txt P-DORD-2 Matrix.txt
(b) SDRF の Hybridization にリンクされた共通のデータマトリックスファイル ("CELData.txt")
Hybridization REF hyb 1 hyb 1 hyb 2 hyb 2 hyb 3 hyb 3
Reporter REF CELIntensity CELIntensityStdev CELIntensity CELIntensityStdev CELIntensity CELIntensityStdev
Gene 1 i11 sd11 i21 sd21 i31 sd31
Gene 2 i12 sd12 i22 sd22 i32 sd32
Gene 3 i13 sd13 i23 sd23 i33 sd33
... ... ... ... ... ... ...
Gene n i1n sd1n i2n sd2n i3n sd3n
(c) データマトリックスファイル (b) から SDRF Hybridization (a) と ADF Reporter Name (図示していない) へのリンク
(c) データマトリックスファイル (b) から SDRF Hybridization (a) と ADF Reporter Name (図示していない) へのリンク
(d) データマトリックスの例 - SDRF "Scan" にリンクされた共通の "Derived Array Data Matrix File" (Matrix.txt)
Scan REF Scan1 Scan1 Scan2 Scan2 Scan3 Scan3
Reporter REF signal p-value signal p-value signal p-value
Gene 1 x11 p11 x21 p21 x31 p31
Gene 2 x12 p12 x22 p22 x32 p31
Gene 3 x13 p13 x23 p23 x33 p33
... ... ... ... ... ... ...
Gene n x1n p1n x2n p2n x3n p3n

シークエンシングデータ*

概要*

DOR は次世代シークエンサーに由来する個人が特定できない遺伝子発現,遺伝子発現制御やエピジェネティックス研究などの機能ゲノミクス配列データを受け付けています。

下の図は DOR への登録において,生データと解析されたデータ,MAGE-TAB と SRA XML メタデータがどのように関係しているのかを示しています。 解析されたデータは MAGE-TAB と一緒に DOR に登録されます。 セットになった生データは MAGE-TAB から生成された SRA XML メタデータとともに DDBJ Sequence Read Archive (DRA) に登録されます。

DOR と DRA のデータはアクセッション番号でリンクされます。

DOR から DRA への代理登録
DOR から DRA への代理登録

生データファイル*

生データファイルは DRA にアップロードされます。 生データファイルはオリジナルの配列と Quality を含んでいて,フィルタリングやトリミングされていないものを登録します。 生データのファイル名は SDRF に記載します。 SDRF のそれぞれの行 (assay/hybridization) に対応した生データファイルが必要です。

Barcode/Multiplexed Data:バーコード配列によってサンプルとランデータファイルが対応付けられるよう,ランデータファイルを分割してください。

登録可能なファイルの形式とパッケージの方法を以下の表にまとめています。 より詳細な情報は DRA ウェブサイト を参照してください。

TechnologyAccepted File Type(s)Notes
Illumina_qseq リードのベースコールと phred-like quality score を含む。 <all data from one lane>.tar.gz のかたちでこれらのファイルをまとめます。
454sffフローグラム (ベースコール,phred quality score,flow value) を含む。 sff ファイルはシークエンシングランのセットアップ情報を反映しています。 プレート全体が使われたときはランあたり1つの sff ファイルを登録します。 プレートが2つ以上の領域に分けて使われた時は,それぞれの領域に対応する sff ファイルを登録します。 sff ファイルが1つ以上のラン,もしくは1ランでも1つ以上の領域のデータを含んでいる場合は,Roche から提供されている 'Off Rig' ソフトウェアパッケージ中の sfffile ユーティリティを使ってファイルを適切に分割します。 sff ファイル中のリード名はプレート上でのアドレス情報,ユニークなラン ID を含んでいます。 アドレス情報を失わないためにリード名を書き変えないでください。 sff ファイルは圧縮せずに投稿してください。
AB SOLiD.csfasta と _QV.qual SOLiD native フォーマット。 1ランからの全てのファイルを tar ファイルにまとめ,さらに圧縮します (.tar.gz)。 ペアードエンドデータの場合2つの種類のファイルが存在します (F3 と R3)。
Helicos未定 HeliScope データを登録する場合は DOR に連絡してください。

fastq ファイルでの登録は受付けていますが,できるだけ上記の生データファイルを登録してください。

解析処理されたデータファイル*

登録すべきデータファイル形式は標準化されておらず,研究の内容に依存します。 論文で結論を導くのに用いられた解析データを登録してください (例: フィルターされたカウント付き配列リスト,アライメントファイル,グラフ,ピークファイルなど)。