登録手順

    公開日: 2014年10月28日;  最終更新日: 2017年11月15日

    JGA 概要

    日本 DNA データバンク (DDBJ) センターは利用制限が必要なヒト由来のデータのためのデータベースとして Japanese Genotype-phenotype Archive (JGA) を National Bioscience Database Center (NBDC) と共同で運営しています。

    • JGA はオープンなデータベースである INSDC とは別のデータベースです。
    • JGA の登録システムは DDBJ センターのオープンデータ登録システムである D-way とは別になります。
    • JGA にデータを登録するためには NBDC へのデータ提供申請とヒトデータ審査委員会での承認が必要です。
    • JGA 登録アカウントのアカウント名とパスワードは NBDC から通知されます。

    このページでは JGA へのデータ登録手順を説明しています。
    JGA 全体の説明については以下の資料をご参照ください。

    エクセルでのメタデータ作成

    エクセルファイルへの記入

    2017-01-25
    JGA xsd 1.0.8 に対応して選択肢が追加されました。

    2016-04-26
    メタデータに表現型・疾患・データ種別に関する項目が追加されました。

    2016-03-01
    JGA メタデータ記入用エクセルで Study に属性値 (キーワード,任意),Experiment に Design Description (実験のデザインを記載,必須) の入力項目を追加いたしました。

    2015-10-08
    JGA に登録される全てのサンプルで Subject ID (匿名化された個人 ID) と Gender (性別) が必須になりました。

    メタデータ記入用エクセルファイルを下記よりダウンロードし、内容を英語で記入してください。メタデータの説明はこちらのページをご参考ください。

    JGA メタデータ記入用エクセル

    last updated: 2017-01-25

    必ずエクセルのファイル名は _metadata.xlsx で終わるようにしてください。_metadata より前は Submission ID や NBDC hum 番号など識別のために自由に名前を付けることができます。
    JGA にアップロードするファイル名には空白を含めないでください。
    Data/Analysis オブジェクトに複数のファイルが含まれる場合は,可能な限りファイルを結合し1つにまとめてください。ファイルのアップロード・ダウンロードで不具合が発生する可能性があります。

    JGA submission tool

    JGA submission tool (最終更新日: 2017-11-16,v3.4.0) をダウンロードし、JGATool.bat からツールを起動します。

    Java 8 で実行してください。Java 7 では動作しません。プロキシ環境での使用方法について

    Windows

    Windows 用 JGA submission tool

    展開したフォルダに含まれる bat ファイルをダブルクリックして起動。

    動作環境: Java Runtime Environment Version 8 Update 45 以上

    Unix

    Unix 用 JGA submission tool

    展開したフォルダに含まれる sh ファイルをシェルで実行して起動。

    動作環境: Java SE Development Kit 8u45 以上。OpenJDK では動作しません。

    エクセルをアップロード

    JGA tool を起動し,NBDC 担当者から通知されるアカウントとパスワードでログインします。

    JGA tool へのログイン
    JGA tool へのログイン

    左ウィンドウがお手許のコンピュータ,右ウィンドウが JGA のセキュアなファイルサーバになります。

    右ウィンドウ上部の Submission ID で対象となる JGA 登録の ID (例 example-0003) をプルダウンメニューから選択します。 左ウィンドウでメタデータを記入したエクセルファイル (例 JGA_example-0003_metadata.xlsx) を選択し,Encrypt & Upload をクリックします。

    対象 submission とエクセルファイルの選択
    対象 submission とエクセルファイルの選択

    エクセルファイルがサーバにセキュアにアップロードされます。下部ウィンドウにエラーメッセージが表示されますが無視してください。

    エクセルファイルをアップロードした後,メールで JGA 担当者にご連絡ください

    アップロードされたエクセルファイル
    アップロードされたエクセルファイル
    メタデータが記入されたエクセルファイルはメールで送付しないでください。

    エクセル/XML をダウンロード

    JGA ファイルサーバ上にある「ファイル名が _metadata.xlsx で終わるエクセル」と「XML ファイル」は tool でダウンロードすることができます。

    ダウンロードしたいエクセルファイル (例 JGA_example-0003_r1_metadata.xlsx) を右クリックし,表示されるメニューの Download を選択します。対象のファイルが左ウィンドウで表示されているローカルマシンにダウンロードされます。

    エクセルのダウンロード
    エクセルのダウンロード

    ダウンロードしたい XML ファイル (例 example-0003_Data.xml) を右クリックし,表示されるメニューの Download を選択します。対象のファイルが左ウィンドウで表示されているローカルマシンにダウンロードされます。必要な XML ファイルを1つずつダウンロードします。

    XML のダウンロード
    XML のダウンロード

    登録ファイルのアップロード

    データファイル形式

    JGA 登録システムではファイルの拡張子でアーカイブ・圧縮形式を判定し、ファイルを処理しています。

    • 拡張子 zip、tar、tar.gz、tgz、tar.bz2、tbz2、gz、bz2 のファイルは標準的な方法でアーカイブ・圧縮されているファイルと判定され、展開・解凍処理されます。拡張子とアーカイブ・圧縮形式が一致していないファイルや、これら以外の形式でアーカイブ・圧縮されたファイルはエラーになります。
    • bam ファイルは圧縮しないでください。
    • gz や bzip 圧縮したファイルをさらに tar でアーカイブせず、tar.gz 等でアーカイブしたファイルを圧縮してください。

    登録するデータ

    Data オブジェクトに fastq や bam ファイルなどの個人レベルの次世代シークエンスデータを登録します。Analysis にアレイデータ,変異解析,質問票などの次世代シークエンス以外のデータや各種ドキュメントを登録します。

    データの再利用性,再現性のためには論文での主張の基になっている解析データが登録されることが重要です。できるだけ VCF などの解析データを Analysis に登録してください。

    メタデータ XML ファイル

    ダウンロードした XML ファイルとデータファイルを JGA tool で選択し,対象 submission にまとめてアップロードします。

    メタデータ XML ファイルとデータファイルのアップロード
    メタデータ XML ファイルとデータファイルのアップロード

    登録ファイルの検証処理

    メタデータとデータファイルに以下の検証処理が実施され,データファイルは暗号化されて JGA サーバにアップロードされます。

    • メタデータ XML の JGA XML schema に対する検証
    • メタデータオブジェクト相互の関係
    • Data と Analysis XML に記載されているデータファイルの存在チェック
    • データファイルアップロード前後での md5 値の一致チェック

    全ての検証処理を通過すると,下部ウィンドウに [INFO] upload succeeded. を表示されます。登録が査定され,問題がなければ JGA アクセッション番号が発行されます。

    エラーメッセージが表示された場合はメールで JGA 担当者にご連絡ください

    検証処理を通過したメタデータ XML とデータファイル
    検証処理を通過したメタデータ XML とデータファイル

    複数ファイルの選択方法

    左ウィンドウに表示されているファイルを複数選択することができます。

    範囲選択

    始点となるファイルのファイル名部分 (チェックボックスではありません) を選択します。続いて終点となるファイル名を Shift キーを押しながら選択すると,ファイルが範囲選択されます。選択した状態で右クリックメニューから "check (selected item)" を選び,範囲選択したファイルをチェックします。

    範囲選択したファイルのチェック
    範囲選択したファイルのチェック

    複数選択

    Control キーを押しながらファイルを選択していくと,ファイルが複数選択されます。選択した状態で右クリックメニューから "check (selected item)" を選び,選択したファイルをチェックします。

    複数選択したファイルのチェック
    複数選択したファイルのチェック

    サブディレクトリ選択

    ファイルが含まれているサブディレクトリをチェックすると,配下の全てのファイルがチェックされます。

    サブディレクトリごとチェック
    サブディレクトリごとチェック

    プロキシ環境での使用方法

    プロキシ環境でツールを使用するためにはプロキシサーバの設定が必要になります。

    ツールが格納されているフォルダ中の "proxy.properties" を開きプロキシサーバ名 (server=) とポート番号 (port=) を設定します。

    # Enter the server name and port number of the proxy server 
      to connect the JGA server via the proxy.
    # For example:
    # server=proxy.example.ac.jp
    # port=8080
    server=
    port=
    

    プロキシサーバが認証を要求している場合,ツールにログイン後に表示されるウィンドウに認証情報を入力します。

    2016-11-17 にリリースした v3.2.0 では BASIC 認証には対応していますが Digest 認証には未対応です。

    ハードディスクでのデータファイル送付

    JGA ツールでの転送に多大な時間を要する,ファイル選択画面がフリーズするなど,大容量・多件数のファイル転送が困難な場合には,ハードディスクでデータを受け付けています。

    ディスクフォーマットは NTFS、ext3 もしくは ext4 にしてください。
    郵送前にディスクをアンチウイルスソフトでチェックしてください。

    データの暗号化

    JGA データ暗号化ツールを使ってデータファイルを暗号化し,ディスクにコピーし郵送します。XML メタデータファイルは JGA Submission Tool でアップロードし,ディスクに含めないでください。

    JGA データ暗号化ツール

    last updated: 2015-12-09

    個別のデータファイルごとに暗号化してください。ファイルをディレクトリや tar でまとめて暗号化しないでください。

    ツールの動作環境

    • 暗号化対象データの総サイズ分の空きディスク領域が必要です。
    • CentOS 6.4 で動作確認を行っています。
    • Java Runtime Environment Version 8 Update 45 以上の Java 実行環境が必要です。

    取得した "jga-data-encrypt.tar.gz" ファイルを tar コマンドで解凍します。 下記のような構成のディレクトリが生成されます。内部のディレクトリ構成は変更しないでください。

    jga-data-encrypt.sh (実行シェルスクリプト) jar/ -> 実行ファイル格納ディレクトリ (改変不可)

    ツールを配置したディレクトリに移動し,下記の要領でコマンドを実行します。
    sh jga-data-encrypt.sh[space]-t[対象ファイルパス][space]-o[出力先ディレクトリパス]
    例)

    $ sh jga-data-encrypt.sh -t target.fastq -o output

    コマンドラインオプション

    -t --target
    暗号化対象ファイルのファイルパスを指定します。
    指定可能なファイルは1ファイルです。複数ファイル(*ワイルドカードでの指定)の指定やディレクトリを指定することはできません。
    複数のファイルを一括で暗号化する場合はシェルスクリプトを組んでください。

    -o --output
    暗号化したファイル,暗号化鍵,MD5 ファイルを出力するディレクトリのパスを指定します。
    指定されたパスにディレクトリが存在しない場合,実行時にディレクトリが作成されます。

    出力されるファイル

    出力ディレクトリには,暗号化対象1ファイルに対して以下の3種類のファイルが出力されます。

    1. 暗号化された対象ファイル (.encrypt)
    ファイル名は [暗号化前のファイル名].encrypt になります。 (例: 暗号化前のファイル名が file1.fastq の場合 file1.fastq.encrypt)

    2. 鍵ファイル (.encrypt.dat)
    暗号化に使用された鍵ファイルです。暗号化対象ファイル1つにつき1鍵ファイルが生成され,公開鍵で暗号化された状態で出力されます。 ファイル名は [暗号化された対象ファイル名].dat となります。 (例: 暗号化前のファイル名が file1.fastq の場合、file1.fastq.encrypt.dat)

    暗号化前後の MD5 ファイル (.md5)
    暗号化対象ファイルの暗号化前後の MD5 値を記録したファイルです。暗号化対象1ファイルに対して1つの MD5 ファイルが生成されます。 ファイル名は [暗号化前のファイル名].md5 となります。 (例: 暗号化前のファイル名が file1.fastq の場合、file1.fastq.md5 となります)

    出力メッセージ

    本ツールのメッセージはログファイル (ツールを設置したディレクトリ内の [実行サーバ host 名].jga-data-encrypt.log ファイル) および標準出力に出力されます。標準出力に表示される標準的なメッセージは以下の通りです。

    $ sh jgacmd.sh -t /home/hoge/file.txt -o /tmp/output
    START encrypt file ←処理開始
    start encryption : /home/hoge/file.txt ←対象ファイル名
    encryption complete : /tmp/output /file.txt.encrypt ←出力ファイル名
    FINISH encrypt file ←処理完了

    エラーメッセージ

    メッセージ 内容
    [code 11] encryption error : <target> ファイルの暗号化処理でエラーが発生しました
    [code 12] make md5 file error : <target> ファイルのMD5取得、MD5書き込み処理でエラーが発生しました
    [code 13] output dir is not a directory : <target> -o に指定されたパスがディレクトリではありません
    [code 14] target is not a file : <target> -t に指定されたパスが通常ファイルではありません

    データの送付

    JGA にデータを登録するためには「暗号化された対象ファイル」「鍵ファイル」「暗号化前後のMD5ファイル」の3点セットが必要です。各対象データファイルについて生成される3ファイルを全てディスクにコピーします。

    メタデータ XML ファイルはディスクにはコピーせず,JGA Submission Tool でアップロードします。

    USB 接続のハードディスクにデータをコピーし,宛先が記入された返送用の着払い伝票を同封して下記宛にお送りください。ハードディスクにラベルを貼って区別しやすくすることを推奨いたします。

    〒411-8540
    静岡県三島市谷田1111 国立遺伝学研究所 生命情報研究センター W201 JGA 担当 児玉 悠一
    電話:055-981-6853