TogoMetabolomeDataFormat/ja
TogoMD: 統合メタボロームデータフォーマット
統合メタボロームデータフォーマット(TogoMD)とは、メタボロミクスデータの高度利用を目的として、各データベースが利用しやすいデータの形を定義したものです。このフォーマットをもとに、国内のメタボロームデータベースの統合を図っています。
Contents |
記載項目に関する定義
XML定義ファイル(XSD)
メタデータからピークデータに至るまで、メタボロームデータの記述に必要な項目を厳選し、項目名と記載内容を定義しました。この定義は、下記のXMLスキーマとして提供しています。
URI | http://metabolonote.kazusa.or.jp/TogoMetabolomeDbSchema.xsd |
---|---|
バージョン | 1.2.0 |
最終更新 | 2014/11/05 |
XML要素・属性の概要とMetabolonote項目名の対応
XML要素および属性の概要を示します。また、Metabolonoteの各ページにおいて表記される項目名およびプロパティ名との対応関係も示しました(Metabolonoteでは、ピーク情報(P)は使用されません)。
Metabolonote | XMLスキーマ | 値の書式※2 | 説明 | |||
---|---|---|---|---|---|---|
IDラベル (フォーム名) |
ページの項目名 | プロパティ名 | 要素名 | 属性名または子要素名※1 | ||
SE | sample_set | サンプルセット情報。 ひとまとまりの実験や、ひとそろいのデータ取得プロジェクトを表す。 | ||||
ID | SE_ID | id | /SE\d+/ | サンプルセットID。 システム内で唯一のID。 非公開データの場合は仮のIDとして、任意英文字+数字が使われる。 | ||
Title | SE_Title | title | STRING | 短いタイトル | ||
Description | SE_Description | description | STRING | 実験の目的、サンプル間の関連性など、データを解釈する上での重要な概念を記述する。 | ||
Authors | SE_Authors | authors | STRING | 著者 | ||
Reference | SE_Reference | reference | STRING | 関連する文献情報 | ||
Comment | SE_Comment | comment | TEXT※3 | コメント | ||
S | sample | サンプル情報。 個々のサンプル調製法について記述する。 | ||||
ID | S_ID | id | /S\d+/ | サンプルID。 サンプルセット(SE)内で重複しないID。 | ||
Title | S_Title | title | STRING | 短いサンプル名 | ||
Organism - Scientific Name | S_Organism - Scientific Name | organism_scientific_name | STRING | 学名。 生体サンプルの場合必須。 | ||
Organism - ID | S_Organism - ID | organism_id | データベース名:ID[|データベース名:ID]...※4 | 分類ID | ||
Compound - ID | S_Compound - ID | compound_id | データベース名:ID[|データベース名:ID]...※4 | 化合物ID | ||
Compound - Source | S_Compound - Source | compound_source | STRING | 試薬入手情報。 標準化合物の場合必須。 | ||
Preparation | S_Preparation | preparation | STRING | 生育方法、特定の処理、サンプリング部位、サンプリング方法、試薬の調製法等 | ||
Sample Preparation Details ID | S_Sample Preparation Details ID | sample_preparation_details_id | /SS\d+/ | 適用したサンプル調製の詳細情報のID | ||
Comment | S_Comment | comment | TEXT※3 | コメント | ||
M | analytical_method | 分析情報。 個々のサンプルを機器分析した方法を記述。 | ||||
ID | M_ID | id | /M\d+/ | サンプル(S)内で重複しない分析方法ID。 | ||
Title | M_Title | title | STRING | 短い分析名 | ||
Method Set ID | M_Method Set ID | analytical_method_details_id | /MS\d+/ | 適用した分析詳細情報のID。 | ||
Sample Amount | M_Sample Amount | sample_amount | STRING | 使用したサンプル量。 他サンプルとの比較のために、定量データをノーマライズするのに必要な情報 | ||
Comment | M_Comment | comment | TEXT※3 | コメント | ||
D | data_analysis | データ解析情報。 ピーク抽出等を行った、主にコンピューターによるデータ解析方法を記述する。 | ||||
ID | D_ID | id | /D\d+/ | 分析方法(M)内で重複しないデータ解析方法ID。 | ||
Title | D_Title | title | STRING | 短いデータ解析方法名 | ||
Data Analysis Set ID | D_Data Analysis Set ID | data_analysis_details_id | /DS\d+/ | データ解析方法詳細情報のID。 | ||
Recommended decimal places of m/z | D_Recommended decimal places of m/z | recommended_decimal_places_of_mass | {default OR INT}{[|peak INT] OR [|機器X INT]}...※5 | 有効数字桁数。 | ||
Comment | D_Comment | comment | TEXT※3 | コメント | ||
SS | sample_preparation_details | サンプル調製方法の詳細情報。 サンプルセット内で共通して参照される。 | ||||
ID | SS_ID | id | /SS\d+/ | サンプルセット(SE)内で重複しないサンプル調製方法の詳細情報のID | ||
Title | SS_Title | title | STRING | 短いタイトル | ||
Description | SS_Description | description | STRING | サンプル調製方法の詳細。 生体サンプルであれば成育・栽培・培養方法や、薬剤処理などの詳細を記述する。分析手法に依存する化合物抽出方法などは、ここではなくMSに記載する。 | ||
Comment_of_details | SS_Comment of details | comment_of_details | TEXT※3 | コメント | ||
MS | analytical_method_details | 分析手法の詳細情報。 サンプルセット内で共通して参照される。 | ||||
ID | MS_ID | id | /MS\d+/ | サンプルセット(SE)内で重複しない分析詳細情報のID | ||
Title | MS_Title | title | STRING | 短いタイトル | ||
Instrument | MS_Instrument | instrument | STRING | 機器の名前とベンダー名 | ||
Instrument Type | MS_Instrument Type | instrument_type | ※6 | 機器の種類 | ||
Ionization | MS_Ionization | ionization_method | ※6 | イオン化方法 | ||
Ion Mode | MS_Ion Mode | ion_mode | ※6 | ポジティブ分析、ネガティブ分析の区別 | ||
Description | MS_Description | description | STRING | 分析方法の詳細。 サンプルに依存する情報以外の、分析機器、条件の詳細をすべて記述する。 | ||
Comment_of_details | MS_Comment of details | comment_of_details | TEXT※3 | コメント | ||
DS | data_analysis_details | データ解析手法の詳細情報。 サンプルセット内で共通して参照される。 | ||||
ID | DS_ID | id | /DS\d+/ | サンプルセット(SE)内で重複しないデータ解析手法詳細情報のID | ||
Title | DS_Title | title | STRING | 短いタイトル | ||
Description | DS_Description | description | STRING | 使ったソフトウェア、そこで採用したパラメーター等、データ解析法の詳細をすべて記述する。 | ||
Comment_of_details | DS_Comment of details | comment_of_details | TEXT※3 | コメント | ||
AM | annotation_method_details | アノテーション方法の詳細情報。 | ||||
ID | AM_ID | id | /AM\d+/ | サンプルセット(SE)内で重複しないアノテーション方法ID | ||
Title | AM_Title | title | STRING | 短いタイトル | ||
Description | AM_Description | description | STRING | アノテーション方法の詳細を記述。 どのような判断基準でアノテーションを付けたか。 | ||
Comment_of_details | AM_Comment of details | comment_of_details | TEXT※3 | コメント | ||
P※7 | peak | ピーク情報。 取得された個々のピークやそのアノテーションを記述する。 | ||||
Peak ID ※7 | @id | /P\d+/ | データ解析方法情報(D)内で重複しないピークID | |||
Intensity ※7 | intensity | DOUBLE | ピーク強度。 相対値か絶対値かなど、値の解釈についてはデータ解析方法情報(D)に記載する。 | |||
Retention Time (min)※7 | retention_time | DOUBLE | 保持時間。 単位は分。 CE-MSの場合は、Migration Timeの意味となる。 | |||
Retention Index※7 | retention_index | DOUBLE | 保持時間インデックス。 CE-MSの場合、Migration Indexの意味 | |||
Mass Detected※7 | mass_detected | DOUBLE | 検出された親イオンのm/z。 GC-MSの場合はnull | |||
Ion Species※7 | ion_species | STRING※6 | LC-MSの場合、検出されたイオンの種類。 [M+H]+等 | |||
Isotope Peaks※7 | isotope_peaks | MI:MASS INT[|13C1:MASS INT[|13C2:MASS INT[|13C3:MASS INT...]]]※8 | 同位体ピークのm/z値と強度情報 | |||
EI MS spectrum※7 | ei_mass_spectrum | ※9※10 | GC-MSの場合、EIによるMSスペクトル情報。 | |||
MSn spectrum※7 | msn_spectrum | ※9※10 | LC-MS, CE-MSの場合、MSnスペクトル。 | |||
UV absorption spectrum※7 | uv_absorption_spectrum | ※9※11 | LC-MSの場合、UV-Vis吸収スペクトル。 将来的にはNIR, IRも可。 | |||
Annotation※7 | annotation | STRING | アノテーション情報。 組成式、化合物名、化合物グループ名、アノテーションの確からしさ等を記載する。 | |||
Annotation Method ID※6 | annotation_method_details_id | /AM\d+/ | アノテーション方法の詳細情報のID | |||
Annotated Compound ID※7 | annotated_compound_id | データベース名:ID[|データベース名:ID]...※4 | アノテーションされた化合物のID | |||
Comment※7 | comment | STRING | その他 |
- ※1 @は属性名、その他は要素名を示します。
- ※2 「STRING」は改行を含まない文字列、「TEXT」は改行を含む文字列、「INT」は整数値、「DOUBLE」は倍精度浮動小数点、「MASS」はm/zを示す数値、「ID」はデータベースのID、「/」で区切られた文字列は正規表現、「[」と「]」で区切られた部分は任意に付加可能なブロック、「...」は直前の「[」と「]」で区切られた部分または類似パターンの繰り返しを示します。「|」は区切り文字を表し、正規表現の「または」の意味ではありません。「{」と「}」で区切られた部分は「OR」前後のいずれかのパターンに付加可能なブロック。「OR」は正規表現の「または」の意味を示します。その他は予約語を表します。
- ※3 行頭が[で始まる場合、次に出現する]までをサブ項目名とし、行末までをそのサブ項目の内容とみなします。将来の拡張機能のための仕様。
- ※4 データベース名は運用時にコントロールする。
- ※5 「default」: 記載されている通りという予約語。int値に変わっても使用可能。
peak: PEAK情報中のm/z detectedの桁数。 機器X: msn_spectrum中のmassの桁数。
- ※6 決められたSTRINGだけが入るが、必ずしもXSDで定義しない。
- ※7 Metabolonote内ではピーク情報(P)は扱われません。
- ※8 「MI」モノアイソトピックイオンを示す予約語。MASSはm/z detectedと同一になる。
「核種数値(例: 13C1)」アイソトープピークの核種と分子内の個数を示す。
- ※9 peaktableファイルには書き出されない。記載方法は「MSn, UV, EIデータのフォーマット」を参照のこと。
- ※10 MSnおよびEI MS のxml定義。massおよびintensityを属性にもつionという要素を複数持つことができる。
- ※11 UV-Visのxml型式。wave_lengthおよびvalueという属性をもつabsorptionという要素を複数持つことができる。
補足的な規約
より詳細なメタデータを柔軟に記載できるように、いくつかの補足的な規約を定義しています。
トップ階層IDの省略
トップ階層のIDを省略してメタデータのIDを記載した場合は、同じトップ階層に属するメタデータを指すものとします。たとえば、SE1_DS1のdescriptionの中で、単にDS2と表記された場合、それはSE1_DS2を表します。 最上位階層のIDは、データ公開時に決定されるため、未公開データの構築時に内部のメタデータを引用したい場合には、この省略形式をご活用ください。
PSEUDO: 仮想的なメタデータ
Titleが「PSEUDO: 」から始まるメタデータは、それより下層のメタデータを記述するために便宜的に設置した仮想的なメタデータ(空ノード)を意味します。たとえば、複数のデータ解析結果(D)を得た後、それらを統合的に使用してさらに別のデータ解析(D)を行うことがあります。この場合、統合的なデータ解析のメタデータをDの階層に位置づけるためには、実態のある特定のサンプルや機器分析ではなく、単なる階層の入れ物(空ノード)が必要になります。「PSEUDO: 」という表記は、このような仮想的なメタデータを見分けやすくするために定めたものです。
IDの付け方
ID付けのルールに関しては、こちらをご参照ください。
データファイルの種類と拡張子
データの種類 | とりうるIDの例 | ファイル識別子(拡張子) | 内容 | ファイル形式 |
---|---|---|---|---|
メタデータ | SE** | .info.txt | SE, S, M, Dの各階層のメタデータおよび必要なMS, DS, AMの情報を持つファイル。 | SE, S, M, Dの各階層について、各項目とその値がタブ区切りで区切られたもの。 サンプルファイル |
SE**_S** | ||||
SE**_S**_M** | ||||
SE**_S**_M**_D** | ||||
SE**_S**_M**_D**_P** | ||||
ピーク抽出データ(複数ピーク) | SE**_S**_M**_D** | .peak-table.txt | 複数のピークのデータを表形式で表したもの | メタデータのPの項目(スペクトルデータ以外)をタブ区切りで各列に表現したもの。 サンプルファイル |
.msn-list.txt | リスト形式のMSnスペクトルデータ。 | スペクトルデータのフォーマットを参照 msn-listのサンプルファイル | ||
.uv-list.txt | リスト形式のUV-Visスペクトルデータ。 | |||
.ei-list.txt | リスト形式のEIマススペクトルデータ。 | |||
ピーク抽出データ(単一ピーク) | SE**_S**_M**_D**_P** | .peak.txt | 単一ピークのデータ | peak-table.txtと同一だが、データ部分が一つしかないもの。 |
.msn.txt | 単一ピークに関連するMSnスペクトルデータ。 | .msn-list.と同じ形式 | ||
.uv.txt | 単一ピークに関連するUV-Visスペクトルデータ。 | .uv-list.txtと同じ形式 | ||
.ei.txt | 単一ピークに関連するEIマススペクトルデータ。 | .ei-list.txtと同じ形式 | ||
.peak-all.txt | 単一ピークの全データ | .info.txt, .peak.txt, .msn.txt, .uv.txt, .ei.txtの情報を一つのファイル中に連結して記載する。 | ||
データの種類 | とりうるIDの例 | ファイル識別子(拡張子) | 内容 | ファイル形式 |
生データ(バイナリ) | SE**_S**_M** | .bin.zip | 分析装置から出力された生のバイナリデータ | 元のバイナリファイルと、.info.txtファイル、ライセンス情報を含むzip圧縮形式 |
生データ(テキスト) | SE**_S**_M**_D** | .txt.zip | バイナリデータを加工しなるべく生に近い形でテキストに出力したデータ | info.txtファイルと以下のテキストデータファイル、ライセンス情報を含むzip圧縮形式 |
SE**_S**_M**_D** | .raw-ms.txt | 生のマスクロマトグラムデータ | 必要に応じ詳細を別途検討する。フルマスとMSnデータを異なるファイルに含める場合には、raw-ms.txtは連番を付けて複数提供可能とする。raw-ms.txtとraw-ms-table.txtは、どちらかが提供されていればよい。UV-Visデータが存在する場合は、raw-uv.txtまたはraw-uv-table.txtどちらかが存在すればよい。 | |
SE**_S**_M**_D** | .raw-uv.txt | 生のUV-Visスペクトルデータ | ||
SE**_S**_M**_D** | .raw-ms-table.txt | 表形式の生のマスクロマトグラムデータ | ||
SE**_S**_M**_D** | .raw-uv-table.txt | 表形式のUV-Visスペクトルデータ |
データファイルのフォーマット
テキスト形式で記述します。
共通ファイルヘッダー
どのファイルも共通に、先頭行には必ず以下のヘッダーを記載します。
※以下、「 <tab> 」はタブ制御文字を意味します。
# <tab> id <tab> データベース名:結合ID.識別子
【例】
# <tab> id <tab> kazusa:SE01_S01_M01_D01.info.txt
ヘッダーオプション
2行目以降に、#から始まる以下のヘッダー行を付記できます(省略可)。
# <tab> license <tab> ライセンス情報
【例】
# <tab> license <tab> CC BY-SA
ピークテーブル
複数のピークの情報を、タブ区切りの表形式で表したデータです。
共通ファイルヘッダーに続き、カラムヘッダー行を一行記載します。
カラムヘッダーとしては、上記「XML要素」の「P(ピーク情報)」に示した、XMLスキーマの属性名または子要素名を、タブ区切りで記載します。 ※スペクトル情報: ei_mass_spectrum, msn_spectrum, uv_absorption_spectrumは、ピークテーブルには書き出されません。
カラムヘッダー行以降に、各ピークのデータをタブ区切りで記載します。
【例】
スペクトルデータのフォーマット
下記のデータを記述するためのフォーマットです。
- MSn解析のマススペクトル
- GC-MSのEIイオン化によるマススペクトル
- UV-Vis吸光検出器による吸収スペクトルデータ
共通ファイルヘッダーに続き、以下のデータブロックを1つ以上記載します。
">"で始まるヘッダー行(1行)と、それに引き続く二つの数値がタブ区切りで記載されたデータ行(複数行)。
ヘッダーも含め、列の区切りはタブ区切りとします。
【例】msn-listデータの例
ヘッダー行
以下を含みます。
列 | 内容 | 記載条件 | 値の書式※1 |
---|---|---|---|
1列目 | ピークID | 必須 | />P\d+/ (つまり、">" + ピークID) |
2列目 | MSnの種類および検出方法の識別子 | 必須 | STRING※2 |
3列目 | 取得したMS等の機器の種類 | 必須 | STRING※3 |
4列目 | イオンモード | MSnのみ必須 | /[+|-]/ (ポジティブかネガティブか) |
5列目 | データ取得モードの区別 | MSn, EIのみ必須 | /[c|p]/ (セントロイドかプロファイルか) |
6列目 | イオン化方法 | MSn, EIのみ必須 | STRING※4 |
7列目 | CIDエネルギー強度 | MSn, EIのみ必須 | STRING※5 |
8列目 | スキャンしたm/zのレンジ | MSn, EIのみ必須 | /[\d\.]+-[\d\.]+/ |
※1 値の書式は「XML要素・属性の概要とMetabolonote項目名の対応」の※2に準じます。
※2 識別子の書式は次項を参照のこと。
※3 ITMS, FTMS, EIの場合TOF-MS, UV-Visの場合PDA等、特定のSTRINGが入る。
※4 ESI, EI等、特定のSTRINGが入る。
※5 メーカーによって記載が異なる場合がある。【例】cid35.00, 70eV
MSnの種類および検出方法の識別子の書式
多段階MS (MSn) | msnイベント識別子 [たたいた前駆体イオンのマス値@前駆体イオンを生成したmsnイベント識別子] |
---|---|
電子イオン化 | EI |
UV・可視光吸収 | PDA等 |
多段階MSnについては、同じmsnイベント識別子は、同じピークIDの中で重複してはならない。
ms2の場合、前駆体イオンはピーク化合物そのものなので、[たたいた前駆体イオン~]部を省略し、イベント識別子のみ(ms2, ms2_1, ms2_2等)を記述する。
ms3以降の場合、前駆体イオンはms2等で生成したプロダクトイオンであるため、どのイオンをたたいたかを区別するため、[たたいた前駆体イオン~]部を記載する。
【例】 ms3_1 [123.456@ms2_1]
msnイベント識別子
msに続けて段階数を数字で書き、同じ段階数が複数ある場合は枝番で示します。
【例】
ピーク化合物のイオンをたたいたもの
- ms2
ピーク化合物のイオンをたたいたもの(異なる溶出時間で複数回のMS2測定が行われた場合など)
- ms2_1, ms2_2等
MS2のプロダクトイオンをたたいたもの
- ms3, ms3_1等
データ行
列 | 内容 | 記載条件 | 値の書式※ |
---|---|---|---|
1列目 | m/z値、PDAの場合波長(nm) | 必須 | DOUBLE |
2列目 | 強度 | 必須 | DOUBLE |
※ 値の書式は「XML要素・属性の概要とMetabolonote項目名の対応」の※2に準じます。