U Glycan Miner
GlycanMinerとは、大量の糖鎖構造の中から「α-closed frequent subtree」[12]] と呼ぶ、頻繁に出現する糖鎖の部分構造を抽出するツールです。
α-closed frequent subtree を説明するために、まず「frequent subtree」を定義します。
直訳すると、「頻繁に出現する部分木」のことです。
出現する部分木のsupport をまず計算します。
support とは、部分構造を含む木構造(つまり入力された糖鎖構造)の数です。
このsupportの数が、「ある程度」大きければ、その部分木はfrequent subtree と定義します。
つまり、たくさんの木構造に含まれる部分木はfrequent subtree と定義し、この「たくさん」の数を次に定義する必要があります。
この「たくさんの数」はminimum support と呼び、通常「minsup」と略します。
GlycanMiner では、ユーザーがminsup を指定する必要があります。
しかし、frequent subtree を抽出すると、そのfrequent subtree の中に含まれる全ての部分木もfrequent subtree として出力されてしまいます。
このように、非常に似た部分構造(frequentsubtree)がたくさん出力されることになってしまいます。
これらの部分構造を区別し、「十分に異なる部分構造」を抽出するため、α-closed frequent subtree と呼ぶ概念が考案されました。
α-closed frequent subtree とは、以下の式を満たす部分構造T のことです。
support(P) < max(α support(T); minsup)
P はT を含む木の部分構造を指します。
つまり、P もT も入力の木構造に含まれる部分構造であり、しかもT はP の部分構造でもあるということです。それぞれのsupport 値を比較し、P のsupport 値がT
のsupport 値のαパーセント以下であれば、T はα-closed frequent subtreeです。
ここでαというパラメータを指定する必要があり、0〜1の値を持ちます。
αが小さければ小さいほど、制限が厳しく、出力されるfrequent subtree の数が制限されます。
利用目的
GlycanMiner は、糖鎖構造が大量に生成された場合に、共通かつ有意に見つかる糖鎖の部分構造を探すために用いられます。
例えば、糖鎖アレイの場合、コントロールとターゲットとそれぞれに強く結合する糖鎖構造群が出力されます。
そうすると、コントロールとターゲットの糖鎖構造群を個別に実行し、α-closed frequent subtree の結果を比較できます。
一方、糖鎖の質量分析で得られたたくさんの糖鎖構造情報を解析し、特異的に現れる糖鎖の部分構造の分析にも用いることができます。
利用方法
1. ユーザーは、入力画面でKCF 形式の糖鎖構造情報を入力またはファイルからロードして下さい。
2. alpha に0〜1 までの数字を、minsup support に数字をそれぞれ入力し、Go mine ボタンを押すと解析結果が表示されます。
FIGURE5.6 GlycanMiner の入力画面。
KCF 形式の糖鎖構造情報を入力またはファイルからロードする。 次にalpha に0〜1 まで数字を、minimum support に数字をそれぞれ入力しGo mine ボタンを押すと解析結果が表示される。FIGURE5.7 GlycanMiner の結果画面。
P-value、部分構造に自動的に付けられた名前、Support、部分構造の画像が表示される。