システムトレードと機械学習の為の「階層的クラスタリング」について

階層的クラスタリングは、データを「階層状」に分類する、機械学習における分析手法の一つです。
この方法では、データがどのように似ているかを視覚的に確認することができるため、データの構造を理解するために広く利用されています。この記事では、初学者の方でもわかるように、階層的クラスタリングの基本から解説します。

階層的クラスタリングとは？
1. 階層構造のイメージ
2. 具体例：お菓子を分類する
デンドログラムとは？
1. デンドログラムの特徴
2. デンドログラムの例え
距離の計算方法について
階層的クラスタリングを実際に使ってみる
1. サンプルコード
サンプルコードの解説
階層的クラスタリングの応用例
まとめ

階層的クラスタリングとは？

階層的クラスタリングとは、データを階層構造に分けていく方法です。データが少しずつ小さいグループにまとまったり、逆に統合されたりする過程を通じて、全体像を階層的に表現します。

階層構造のイメージ

階層構造とは、データが木の枝のように分類されていく形を指します。

最初は全体を1つの大きなグループとします。
そこから特徴が似ているデータ同士を細かいグループに分けます。
最終的には、データが個別の小さなグループに分類されます。

具体例：お菓子を分類する

例えば、スーパーで売られているお菓子を分類するとします。

最初に「すべてのお菓子」を1つのグループにします。
次に「チョコレート系」と「スナック系」に分けます。
さらに「スナック系」を「ポテトチップス」と「クラッカー」に分けます。
「ポテトチップス」を味ごとに「塩味」「のり味」「コンソメ味」に分けます。

このようにして、全体を少しずつ細かく分類することで、データの特徴を階層的に整理することができます。

デンドログラムとは？

デンドログラムとは、階層的クラスタリングの結果を「木のような形」で表した図のことです。この図を見ることで、どのデータがどの順番で統合されたか、あるいは分割されたかを確認できます。

デンドログラムの特徴

デンドログラムは、木の枝のような形をしています。
横軸にはデータの名前や番号が表示されます。
縦軸には「データ同士がどれくらい離れているか（距離）」が表示されます。

デンドログラムの例え

例えば、家族の血縁関係を考えてみてください。親と子のつながりを表す家系図のように、デンドログラムもデータ同士の関係を可視化します。近い位置にあるデータは似ていて、遠い位置にあるデータは異なるということを示しています。

距離の計算方法について

階層的クラスタリングでは、データ同士の距離を計算することが重要です。距離の計算にはいくつかの方法があります。

ユークリッド距離（直線距離）

ユークリッド距離とは、2つの点を直線で結んだときの長さのことです。地図で2つの町の位置を示し、定規で測るようなイメージです。

計算式
距離 = sqrt((x2-x1)^2 + (y2-y1)^2)

例点A(1, 2)と点B(4, 6)の場合、計算は以下の通りです。

まず、各座標の差を計算します。
- x座標の差：4 – 1 = 3
- y座標の差：6 – 2 = 4
次に、それぞれの差を二乗します。
- (x2 – x1)^2 = 3^2 = 9
- (y2 – y1)^2 = 4^2 = 16
これらを足し合わせます。
- 9 + 16 = 25
最後に平方根を取ります。（平方根とは、ある数を2回掛けて元の数になる値のことです）
- sqrt(25) = 5

したがって、点Aと点Bの距離は5です。

マンハッタン距離（縦横の距離）

マンハッタン距離とは、縦横に移動する距離の合計です。将棋やチェスの駒が動く距離に似ています。

計算式
距離 = abs(x2-x1) + abs(y2-y1)

計算式 距離 = abs(x2-x1) + abs(y2-y1)

例点A(1, 2)と点B(4, 6)の場合、計算は以下の通りです。

まず、各座標の差を絶対値で求めます（絶対値とは、負の数を考えずに数の大きさだけを扱うことです）。
- x座標の差：abs(4 – 1) = 3
- y座標の差：abs(6 – 2) = 4
次に、それらを足し合わせます。
- 3 + 4 = 7

したがって、点Aと点Bのマンハッタン距離は7です。

コサイン類似度（角度の違いで比較）

コサイン類似度は、データ間の「角度」に注目して、どれくらい似ているかを測る方法です。距離ではなく「方向性」を比較します。

計算式
類似度 = (x1x2 + y1y2) / (sqrt(x1^2 + y1^2) * sqrt(x2^2 + y2^2))

例点A(3, 4)と点B(6, 8)の場合、計算は以下の通りです。

まず、各座標の積を求めます。
- x1 * x2 = 3 * 6 = 18
- y1 * y2 = 4 * 8 = 32
次に、それらを足し合わせます。
- 18 + 32 = 50
次に、それぞれのベクトルの長さ（大きさ）を求めます（ベクトルとは、向きと大きさを持つ量のことです。例えば、地図上での移動距離とその方向を示すようなものです）。
- sqrt(x1^2 + y1^2) = sqrt(3^2 + 4^2) = sqrt(9 + 16) = sqrt(25) = 5 （これは、点Aから原点までの距離を求めています）
- sqrt(x2^2 + y2^2) = sqrt(6^2 + 8^2) = sqrt(36 + 64) = sqrt(100) = 10 （これは、点Bから原点までの距離を求めています）
最後に、内積をベクトルの長さで割ります（内積とは、2つのベクトルの対応する要素を掛け合わせた結果を足し合わせたものです。ベクトルの類似度や関係性を調べるときに使われます）。
- 類似度 = 50 / (5 * 10) = 50 / 50 = 1

したがって、点Aと点Bのコサイン類似度は1です（これは、二つのベクトルが完全に同じ方向を向いていることを意味します）。

階層的クラスタリングを実際に使ってみる

サンプルコード

以下は、Pythonを使った階層的クラスタリングのサンプルコードです。

# 必要なライブラリをインポート
from sklearn.cluster import AgglomerativeClustering  # 階層的クラスタリングを行うライブラリ
from scipy.cluster.hierarchy import dendrogram, linkage  # デンドログラム作成用
import matplotlib.pyplot as plt  # グラフを描画するライブラリ
import numpy as np  # 数値計算を簡単にするライブラリ

# サンプルデータを作成
# データは2次元平面上の5つのポイントを表します
data = np.array([[1, 2], [3, 4], [5, 6], [8, 8], [10, 10]])

# 階層的クラスタリングの計算
# linkage関数を使い、Ward法でデータ間の距離を計算します
linkage_matrix = linkage(data, method='ward')

# デンドログラムの描画
plt.figure(figsize=(8, 5))  # 図のサイズを指定
dendrogram(
    linkage_matrix,  # 階層的クラスタリングの結果を渡します
    labels=[f"Point {i+1}" for i in range(len(data))]  # 各データにラベルをつけます（Point 1, Point 2など）
)
plt.title("デンドログラム")  # グラフのタイトル
plt.xlabel("データポイント")  # 横軸のラベル
plt.ylabel("距離")  # 縦軸のラベル
plt.show()  # グラフを表示

サンプルコードの解説

このコードでは、次のような流れで階層的クラスタリングを実施しています。

ライブラリのインポート

from sklearn.cluster import AgglomerativeClustering: 階層的クラスタリングを行うために必要なライブラリをインポートします。
- from ... import ...の形式は、特定のモジュールから必要なクラスや関数だけを取り込むときに使います。ここでは、AgglomerativeClusteringだけを使いたいのでこの形式を使用しています。
from scipy.cluster.hierarchy import dendrogram, linkage: デンドログラムを描画するために必要な関数をインポートします。
- このように複数の関数をカンマで区切ってインポートすることもできます。
import matplotlib.pyplot as plt: グラフを描画するためのライブラリです。
- as pltは、matplotlib.pyplotを短縮してpltと呼ぶようにするものです。こうすることで、コードが簡潔になります。
import numpy as np: 数値計算を簡単に行うためのライブラリです。
- 同様に、as npはnumpyを短縮してnpとすることでコードを読みやすくしています。

np.array関数でデータを準備

np.array関数は、リスト形式のデータを効率的な数値計算用の形式に変換します。この配列形式は、大量の数値データを扱う際に処理速度が向上するため、科学計算やデータ分析で頻繁に利用されます。

例：
data = np.array([[1, 2], [3, 4]])
このコードは、2次元の配列を作成し、変数dataに格納しています。

linkage関数で階層構造を計算

linkage関数は、データ間の階層的な構造を計算するための関数です。ここではmethod='ward'を指定しています。

Ward法は、統合されるグループの分散（ばらつきの大きさ）を最小化する方法です。分散が小さいほど、データがまとまりやすく、分析しやすい構造が得られます。

例：
linkage_matrix = linkage(data, method=’ward’)
このコードは、データの階層構造を計算し、結果をlinkage_matrixに保存しています。

各引数の説明

data: クラスタリングするデータを指定します。ここでは、2次元平面上の複数の点を含む配列です。
method='ward': グループを統合する際の方法を指定します。Ward法は、データを統合する際に、分散が最小になるようにクラスタを作成する方法です。（分散とは、データがどれくらいばらついているかを示す指標で、値が大きいほどデータが広く散らばっていることを意味します）。