よくある質問

FAQ: 22 件

メタデータの登録*

シークエンスしたゲノム配列それぞれに BioProject/BioSample が必要ですか?

一つの研究計画で複数のゲノム配列を決定した場合,これらのゲノム配列は一つの BioProject に紐づけることができますが,配列が取得されたサンプルは別々の BioSample として登録します。

一つのメタゲノムサンプルから複数のゲノム配列を高い精度で構築したメタゲノムアセンブリの場合,一つの BioProject を登録し,再構成したゲノムアセンブリに対応するサンプルを BioSample として必要数登録します。 ゲノムにアノテーションを付与する場合は,それぞれのゲノム/BioSample に対応する locus tag prefix の取得を DDBJ BioSample チームに依頼します。

作成日: 2015年2月12日; 最終更新日: 2016年12月13日

BioSample,DRA Experiment,DRA Run とデータファイルとの間の関係は?

BioSample はデータベースに登録する実験データを得るために使われた生物学的な試料やサンプルに対して作成します。Biological/Technical replicate は異なる BioSample として登録し,サンプル属性 replicate に "biological replicate 1","biological replicate 2" のように記載して replicate であることを表現します。

DRA のデータファイルは一つの BioSample にしかリンクできないことに注意してください。

Experiment は特定のサンプルに由来するシークエンス用ライブラリーです。 データについて一般に公開される情報の多くが Experiment に記載されます。

Run は特定のシークエンス用ライブラリー (Experiment) にリンクすべきデータファイルを単にまとめるオブジェクトで,データについての内容説明はあまり含まれていません。 Run にリストされたすべてのデータファイルはアーカイブ用の SRA ファイル (配布用の fastq ファイル) にマージされることに注意してください。 ですので,異なるサンプルに由来するファイルは同じ Run に含めるべきではありません。一方,ペアードのデータファイルは同じ Run に含め,ペアードリードが正しくペアとして処理されるようにします。ペアライブラリー毎に,例えば Forward と Reverse で,サンプルを分割しないでください。

作成日: 2014年6月4日; 最終更新日: 2017年1月4日

BioProject/BioSample 番号の DRA 登録での指定方法は?

BioProject と BioSample の投稿を始めると,それぞれに対して一時的なトラッキング用 ID である PSUB/SSUB 番号が割り振られますが,これらは正式なアクセッション番号ではありません。

BioProject の登録が完了すると PRJDB で始まるアクセッション番号が,BioSample の登録が完了すると,それぞれのサンプルに対して SAMD で始まるアクセッション番号が発行されます。

DRA 登録の過程では,PSUB もしくは PRJDB 番号で BioProject を,そして SSUB + sample name もしくは SAMD 番号で BioSample を指定します。 DRA のデータファイルは一つの BioSample にしかリンクされないことに注意してください。

共同研究でサンプル調整とシークエンシングが別の組織で行われた場合など,他の登録アカウントで取得された BioProject と BioSample ID を DRA から参照することができます。アカウントをまたがった参照を希望する場合は DRA チームまでご連絡ください。アカウントをまたがる場合は BioProject,BioSample と DRA 間での連動公開にご注意ください。

作成日: 2014年6月4日; 最終更新日: 2016年12月13日

塩基配列登録にはいくつのサンプルが必要ですか?

BioSample はデータベースに登録する実験データを得るために使われた生物学的な試料やサンプルに対するレコードです。 Biological/Technical replicate は BioSample で "replicate" というユーザ定義の属性を使い "replicate = biological replicate 1" のようにしてサンプルを区別します。

それぞれに採取された,物理的に異なる環境サンプルはユニークな BioSample になりますが,サンプルに含まれる配列によって由来が区別されたリードは BioSample に該当しません。 DRA のデータファイルは一つの BioSample にしかリンクできないことに注意してください。

基本的な考え方:
  • それぞれのユニークな source に対して別々の BioSample を登録します。例えば,羽から調整した RNA と肢から調整した RNA は,両者が別々にシークエンスされている場合,別個の BioSample になります。
  • ゲノムアセンブリは一つの BioSample のみ持つことができます。複数の BioSample に由来するリードをアセンブルして得られたゲノム配列の場合,アセンブルのために他の BioSample が使われたことを示す1つの BioSample を新しく登録します。
    例えば,オスとメスに由来するリードをそれぞれ DRA に登録したが,両者のリードを用いてゲノムをアセンブルした場合,オスとメスに対する一つの BioSample を新しく登録し,オスとメスそれぞれに対する BioSample アクセッション番号を引用して,両 BioSample の混合サンプルであることを明示します。そのようなゲノム登録の例
  • 内部共生体 (endosymbiont) の場合: ゲノム単位で BioSample を登録する必要があるため,例えば昆虫と内部共生体の両方のゲノムを登録する場合,それぞれの BioSample が必要になります。
サンプルの登録例:
  • 海水中のある採取地点から得られた 23,000 本のユニークな 16S 増幅配列 - 1 BioSample (1サンプルが採取され,16S の多様性が解析された)
  • 同じ薬物で処理された三匹の「同一」なトランスジェニックマウス - 3 BioSamples (Biological/Technical replicate は BioSample で区別)
  • 遺伝子発現レベルの経時的な変化を解析するために,ウイルスに感染させた CHO 細胞を 0,2,4,8 時間後にサンプリング - 4 BioSamples (4 time points)
  • 発現している遺伝子の差異を組織毎に調べるため,オスのアリクイ一個体から採取した脳,心臓,肺,精巣,肝臓 - 5 BioSamples (5つの異なる組織)
作成日: 2014年6月4日; 最終更新日: 2016年12月13日

多件数のメタデータを作成するよい方法は?

Experiment や Run オブジェクトが多件数の場合は,エクセルなどの表計算ソフトを使いメタデータを一括編集,作成し,タブ区切りテキストファイルとして登録することができます。DRA Handbook をご参照ください。

作成日: 2013年10月8日; 最終更新日: 2016年12月13日

サンプルがバーコード配列によって区別されている場合のメタデータは?

シークエンスデータをサンプルごとに分割し,サンプルごとに BioSample-Experiment-Run として登録します。バーコード配列とサンプルの対応を記載したい場合は,Experiment の Library Construction Protocol にフリーテキストで記載します。

作成日: 2013年10月8日; 最終更新日: 2014年5月12日

2014年5月14日から Study の代わりに BioProject を登録するようになりました。DRA の登録システムで使用する BioProject アクセッション番号を選択します。

作成日: 2013年10月8日; 最終更新日: 2015年10月13日

Experiment.Spot 記入方法は?

Spot にはデータファイル中のリードがどのような構成をしているのかを記載します。記入例を参照してください。2014年5月12日以降,全ての technical reads を除去したシークエンスデータを登録する,という方針に変更しております。

作成日: 2013年10月7日; 最終更新日: 2014年5月12日

アクセッション番号*

投稿論文では,どのアクセッション番号を引用するべきですか?

DRA 登録は以下のプレフィックスのオブジェクトから構成されます。 Prefix Letter List

  • Submission : DRA
  • BioProject (Study) : PRJD
  • Experiment : DRX
  • BioSample (Sample) : SAMD
  • Run : DRR
  • Analysis : DRZ
メタデータオブジェクト
メタデータオブジェクト

投稿論文で引用する粒度にあわせ,各オブジェクトを引用してください。原則として BioProject アクセッション番号の引用はしないでください

規定については論文出版局にお問い合わせください。

作成日: 2014年4月21日; 最終更新日: 2016年12月13日

投稿論文にアクセッション番号を記載するときのフォーマットはありますか?

投稿を予定している雑誌などの,執筆規定に従ってください。

記載例
Nucleotide sequence data reported are available in the DDBJ Sequenced Read Archive under the accession numbers DRXxxxxxx and DRXxxxxxx.

なお,学術雑誌 "Genome Announcements" では,DRA のアクセッション番号ではなく,WGS プロジェクトのアクセッション番号を記載するように規定しています。各雑誌の執筆規定をご参照ください。

作成日: 2014年4月11日; 最終更新日: 2015年10月13日

アクセッション番号が届きません

D-way アカウントにログインし,Submission のステータスを確認してください。

  • "metadata_submitted"
        [Validate data files] ボタンをクリックして検証処理を開始してください。
  • "data_error"
        エラーの内容を確認してデータを修正してください。
  • "data_validating"
        検証処理中です。ファイルサイズが大きい場合,検証処理に時間がかかります。
  • "submission_validated"
        DRA スタッフが査定中です。しばらくお待ちください。

お急ぎの場合は DRA チームまでご連絡ください。

作成日: 2013年10月7日; 最終更新日: 2016年12月13日

シークエンスデータ*

"Validate data files" ボタンをクリックできず検証処理を開始できません

Run メタデータに記入された全てのデータファイルが DRA サーバにアップロードされると, "Validate data files" ボタンが活性化され,検証処理を開始することができるようになります。 メタデータを投稿しステータスが "metadata_submitted" になった後でもボタンが不活化されている場合は, 以下の点をチェックしてください。
  • Run メタデータに記入した全てのデータファイルが DRA サーバにアップロードされていない。
  • データファイルのファイル名に空白が含まれており,アップロードされたファイルが認識されていない。
  • アップロードされたファイルがディレクトリに含まれており,認識されていない。
作成日: 2015年10月5日

データファイルはどのように処理されますか?

アップロードされたデータファイルは Run 単位で処理されます。Run にリンクしている全てのデータファイルから SRA toolkit によりバイナリーの SRA ファイルが作成されます。この過程でリード長やリード名の書式などが全ての配列に渡ってチェックされます。元々のリード名は Run 単位でユニークである必要があります。

リード名は編集され,DRR アクセッション番号に連番が付された ID が自動的に挿入されます。ファイル名には DRR アクセッション番号が付与されます (例: DRR000001)。filetype に "generic_fastq" を指定した場合,リード名は DRR 番号に連番が付された ID で置換されます (例: DRR030615)。

リード名の例:

@DRR000001.1 3060N:7:1:1116:340 length=36
GATGGTAAGATAGAAGCAGTTGAAGTTTACAAACCG
+DRR000001.1 3060N:7:1:1116:340 length=36
IIIII%IIIIIIIIII7IHII26:C6EI)+,9,%%*
@DRR000001.2 3060N:7:1:1114:186 length=36
GATATTGGCCTGCAGAAGTTCTTCCTGAAAGATGAT
+DRR000001.2 3060N:7:1:1114:186 length=36
IIIIIIIIIIIIIGI8IIDI6II;?:,+9+>.A1,I
@DRR000001.3 3060N:7:1:945:361 length=36
GTCAGGATCGGTCTCGCCTTTTAATAGAGGGAGATA
+DRR000001.3 3060N:7:1:945:361 length=36
IIIIIIIIIIIIIIII=3IIII>>I;-52/./+.I,

Experiment で PAIRED が指定されている場合,Run 単位でペアリードが自動的にまとめられます。

DRA では SRA toolkit を使い SRA ファイルから汎用されている fastq ファイルを生成し,SRA ファイルとともにダウンロード提供しています。

ペアリードの場合二種類以上の fastq ファイルが生成されます。ペアリードはファイル名に _1 (例 DRR000001_1.fastq.bz2) と _2 (例 DRR000001_2.fastq.bz2) が付いた fastq ファイルに分けて出力されます。ペアが見付からなかったリードは _1 や _2 が付いていないファイル (例 DRR000001.fastq.bz2) にまとめられます。

作成日: 2014年12月25日; 最終更新日: 2015年12月25日

scp でファイルの転送ができません

以下の基本的な点をご確認ください。

  • scp 接続時にパスワードではなく鍵認証になっているかどうか
  • D-way アカウントに登録した公開鍵と指定している秘密鍵がペアになっているかどうか
  • 秘密鍵ファイルが読み込みを許可する権限設定になっているかどうか
  • 鍵作成時に指定したパスフレーズを正しく入力しているかどうか

鍵を生成した時のコンピュータの OS と異なる環境でデータを転送しようとしている場合, 秘密鍵の形式が合っているかどうかご確認ください。秘密鍵ファイルの変換

転送環境 Unix/Mac OS X: Windows で作成した PuTTY 形式の秘密鍵は OpenSSH 形式に変換します。

転送環境 Windows WinSCP: Unix/Mac OS X で作成した OpenSSH 形式の秘密鍵は PuTTY 形式に変換します。

上記に問題がない場合は所属する組織のシステム管理者に scp (ポート 22) の通信を許可しているかどうか,ご確認ください。

作成日: 2014年11月19日; 最終更新日: 2015年2月12日

MD5 チェックサムとは何でしょうか?

DRA は MD5 チェックサムをアップロードされたファイルが破損されていないかどうかのチェックに使っています。 MD5 チェックサムは 32 桁の英数字です。こちらのマニュアルをご参照ください。

例)bf4ac50dcd58bd2860dfac48c7fca348

作成日: 2014年6月4日; 最終更新日: 2014年12月5日

データファイルの検証処理エラーへの対処方法は?

data excessive while validating formatter within short read archive module - cummulative length of reads data in file(s): 152 is greater than spot length declared in experiment: 76 in spot 'xxxx'

Experiment の Spot length に記載されているリード長と実際の配列長が異なっています。ペアリードの場合は両者を足し合わせた長さを Spot length に記載します。

fastq-load err: data inconsistent while validating formatter within short read archive module - cummulative length of reads data in file(s): 70 is less than spot length declared in experiment: 152, most probably mate-pair is absent in spot 'xxxx'

Run の filetype が 'fastq' の場合,「リード長が揃っていること」と「ペアの場合,ペアとなっているファイル中でペアリードが同じ順番で記載されていること」が必要になり,そうではない場合にエラーになります。Run の filetype を 'generic_fastq' に変更します。

constraint violated while executing function within virtual database module

リード名が Run 単位でユニークではない可能性があります。

path not found while accessing directory within file system module - no message text available

ファイルが認識されていません。次の場合にエラーになります。「ファイル名に空白が含まれている」,「ファイルがサブディレクトリ下にある」,「fastq ファイルが tar などでまとめられている」。

CheckSum Error

Run に記載されている md5 値とサーバにアップロードされたファイルの md5 値が異なっています。「ファイルの破損がないかどうか」「メタデータに入力した md5 値が間違っていないかどうか」を確認します。

作成日: 2013年10月7日; 最終更新日: 2016年12月13日

更新*

論文情報を追加するには?

DDBJ 塩基配列データ

登録データの修正・更新の当該項目を参照の上,登録データの修正・更新申し込みの「論文が公開されました」から担当者に連絡します。配列エントリのフラットファイルに論文情報が記載されます。

DRA

DRA 番号を引用している論文情報は参照している BioProject に追加します。BioProject チームに論文情報の追加を依頼します。

BioProject

BioProject に論文情報の追加を依頼します。基本的に BioProject 番号の論文中での引用は推奨していません

BioSample

BioSample に登録したサンプルから得られた実験データが DDBJ 塩基配列データベースや DRA に登録されている場合,各データベース毎に記載した手順に従って論文情報を更新・追加します。

サンプルの単離や生育条件の詳細を記載している論文は isol_growth_condt に, ゲノム配列を報告した論文は ref_biomaterial に pubmed ID などを記載します。

上記以外の論文情報を BioSample に追加したい場合は BioSample チームに連絡してください

作成日: 2013年10月8日; 最終更新日: 2016年9月5日

どのように公開予定日を変更したらいいのでしょうか?

登録ポータル "D-way" に登録アカウントでログインし,予定日を変更してください。公開予定日は最長2年後まで指定でき,何度でも変更することが可能です。

hold_date

また,通常,公開予定日の30日前に自動お知らせメールを送りますので,必要であれば,登録アカウントにログインして,再度,公開日の延期を行ってください。

作成日: 2013年10月8日; 最終更新日: 2015年10月9日

データのダウンロード*

DRA で公開されている fastq のリード数が生データのそれよりも少ないのは何故でしょうか?

DRA では NCBI SRA Toolkit に含まれている fastq-dump を使い,以下のオプションで生データである SRA ファイルから fastq ファイルを作成しています。

fastq-dump -M 25 -E --skip-technical --split-3 -W <SRA file>

  • -M 25: 25 塩基以上の配列のみを含める。デフォルトは 25。
  • -E: リードの開始,もしくは終わりに 10 以上の N が存在しない
  • --skip-technical: technical read を除き biological read のみを出力
  • --split-3: ペアリードで最初と二番目の biological read をそれぞれ *_1.fastq と *_2.fastq として出力する。一つしか biological read が存在しない場合,*.fastq として出力する。
  • -W: 指定されていた場合,left と right を clip する

上記の出力条件でリードがフィルタリング,トリミングされるため,一般的に fastq のリード数は SRA ファイルのそれよりも少なくなっています。 フィルタリング,トリミングされていない fastq ファイルを得るには以下のコマンドで fastq を生成します。

fastq-dump -M 1 --split-3 <SRA file>

作成日: 2013年10月8日; 最終更新日: 2014年6月6日

公開されているデータをダウンロードする方法を教えてください

DDBJ ftp サーバ ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq からダウンロードしてください。

wget

wget コマンドを使って ftp サーバからデータを簡単に取得することができます。

wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/DRA000/DRA000001/DRX000001/DRR000001.fastq.bz2

ascp

OS を指定して Aspera ascp コマンドラインクライアントをダウンロードします。ascp コマンドラインクライアントは Aspera connect high-performance transfer browser plug-in の一部として配布されています。

以下のようなコマンドでデータを取得します。

ascp -i <aspera connect SSH key> <option> -P 33001 anonftp@ascp.ddbj.nig.ac.jp:<file or files to download> <download location>

コマンドの例

ascp -i <aspera connect SSH key> -QT -l 300m -P 33001 anonftp@ascp.ddbj.nig.ac.jp:/ddbj_database/dra/fastq/DRA000/DRA000001/DRX000001/DRR000001.fastq.bz2 .

作成日: 2013年10月8日; 最終更新日: 2014年6月6日

データの転送*

NIG スパコン上にあるデータを DRA サーバに直接転送する方法は?

Unix/Mac OS X 上で秘密鍵を作成した場合

秘密鍵を遺伝研スパコン (Linux) に転送します。次に データファイルを scp 転送します。

scp <Your Files> <D-way Login ID>@dradata.ddbj.nig.ac.jp:~/<Submission ID>

  • <Your Files> 転送するファイル。
    例: file1 file2 (file1とfile2),file* (fileではじまる全てのファイル)
  • <D-way Login ID> D-way の Login ID (例: drauser)
  • <Submission ID> 登録の Submission ID (例: drauser-0003)

Windows 上で秘密鍵を作成した場合

Linux で使用されている OpenSSH 形式へ変換した後,遺伝研スパコンに秘密鍵を転送します。 また,scp 転送時には -i オプションで秘密鍵を指定して下さい。

scp -i <Private Key> <Your Files> <D-way Login ID>@dradata.ddbj.nig.ac.jp:~/<Submission ID>

  • <Private Key> 秘密鍵を PATH で指定。例: /home/mishima/id.rsa 
作成日: 2014年12月12日; 最終更新日: 2015年1月20日

データの公開*

BioProject/BioSample/塩基配列データの連動公開の仕組みは?

相互にリンクされている BioProjectBioSampleDDBJDRA に登録された塩基配列データの連動公開の仕組みは以下のようになっています。

  • BioProject の公開はリンクされているデータの連動公開を引き起こしません。
  • BioSample の公開はリンクされている BioProject の連動公開を引き起こしますが,塩基配列データの連動公開を引き起こしません。
  • DDBJ と DRA の塩基配列データはリンクしている BioProject と BioSample の連動公開を引き起こします。
BioProject/BioSample/塩基配列データの連動公開
BioProject/BioSample/塩基配列データの連動公開

DRA Handbook: DRA のデータ公開
BioProject Handbook: BioProject のデータ公開
BioSample Handbook: BioSample のデータ公開

作成日: 2014年12月15日; 最終更新日: 2016年12月13日