Ⅱ Glycan Miner
GlycanMiner とは、大量の糖鎖構造の中から「α-closed frequent subtree」 [12] と呼ぶ、頻繁に出現する糖鎖の部分構造を抽出するツールです。
α-closed frequent subtree を説明するために、まず「frequent subtree」を定義します。
直訳すると、「頻繁に出現する部分木」のことです。
出現する部分木のsupport をまず計算します。
support とは、部分構造を含む木構造(つまり入力された糖鎖構造)の数です。
この support の数が、「ある程度」大きければ、その部分木は frequent subtree と定義します。
つまり、たくさんの木構造に含まれる部分木は frequent subtree と定義し、この「たくさん」の数を次に定義する必要があります。
この「たくさんの数」は minimum support と呼び、通常「minsup」と略します。
GlycanMiner では、ユーザーが minsup を指定する必要があります。
しかし、frequent subtree を抽出すると、その frequent subtree の中に含まれる全ての部分木も frequent subtree として出力されてしまいます。
このように、非常に似た部分構造(frequentsubtree)がたくさん出力されることになってしまいます。
これらの部分構造を区別し、「十分に異なる部分構造」を抽出するため、α-closed frequent subtree と呼ぶ概念が考案されました。
α-closed frequent subtree とは、以下の式を満たす部分構造T のことです。
support(P) < max(α support(T); minsup)
P は T を含む木の部分構造を指します。
つまり、P も T も入力の木構造に含まれる部分構造であり、しかも T は P の部分構造でもあるということです。
それぞれの support 値を比較し、P の support 値が T の support 値の α パーセント以下であれば、T は α-closed frequent subtree です。
ここでαというパラメータを指定する必要があり、0~1の値を持ちます。
α が小さければ小さいほど、制限が厳しく、出力される frequent subtree の数が制限されます。
利用目的
GlycanMiner は、糖鎖構造が大量に生成された場合に、共通かつ有意に見つかる糖鎖の部分構造を探すために用いられます。
例えば、糖鎖アレイの場合、コントロールとターゲットとそれぞれに強く結合する糖鎖構造群が出力されます。
そうすると、コントロールとターゲットの糖鎖構造群を個別に実行し、α-closed frequent subtree の結果を比較できます。
一方、糖鎖の質量分析で得られたたくさんの糖鎖構造情報を解析し、特異的に現れる糖鎖の部分構造の分析にも用いることができます。
利用方法
1. ユーザーは、入力画面で KCF 形式の糖鎖構造情報を入力またはファイルからロードして下さい。
2. alpha に0~1 までの数字を、minsup support に数字をそれぞれ入力し、Go mine ボタンを押すと解析結果が表示されます。
図 5.6 GlycanMiner の入力画面。
KCF 形式の糖鎖構造情報を入力またはファイルからロードする。 次に alpha に 0~1 まで数字を、minimum support に数字をそれぞれ入力し Go mine ボタンを押すと解析結果が表示される。
図 5.7 GlycanMiner の結果画面。
P-value、部分構造に自動的に付けられた名前、Support、部分構造の画像が表示される。