kaeken(嘉永島健司)ブログ

クラスター分析（Cluster Analysis）

Data Science

クラスター分析（Cluster Analysis）の概要

クラスター分析（Cluster Analysis）の概要

概要と特徴

定義データ全体の傾向を把握するため、類似した性質を持つ個体をグルーピングする多変量解析（Multivariate Analysis）の手法
データの性質 事前に正解となる分類（教師データ）を与えない「教師なし学習（Unsupervised Learning）」に該当
分析の目的 膨大なデータの中から共通項を見出し、セグメンテーション（Segmentation）やターゲットの特定を行うこと

分類

階層的クラスター分析（Hierarchical Cluster Analysis） 似ている個体から順に結合し、最終的に一つの大きなクラスターに統合する手法
非階層的クラスター分析（Non-hierarchical Cluster Analysis） あらかじめ決めた数のクラスターに、個体を割り振っていく手法（k-means法など）

上位概念・下位概念

上位概念 機械学習（Machine Learning）、データマイニング（Data Mining）、多変量解析
下位概念 デンドログラム（Dendrogram）、最短距離法（Nearest Neighbor Method）、ウォード法（Ward's Method）、エルボー法（Elbow Method）

メリット

事前情報の不要性 分類基準が未知のデータに対しても、統計的に有意なグループ分けが可能
可視化の容易性 階層的分析におけるデンドログラムの使用により、分類過程の視覚的な把握が容易

デメリット

主観性の介入 クラスターの数や解釈の決定に分析者の判断が依存
計算負荷 サンプルサイズが極端に大きい場合、階層的分析では計算量が膨大になり実行が困難

既存との比較

判別分析（Discriminant Analysis）との違い 判別分析は既知のグループへ分類する「教師あり学習」であるのに対し、クラスター分析は未知のグループを作る「教師なし学習」
主成分分析（Principal Component Analysis）との違い 主成分分析は変数を集約して次元を削減する手法、クラスター分析は個体をグループ化する手法

競合

潜在クラス分析（Latent Class Analysis） 確率モデルに基づき、観測データから背後の潜在的な属性グループを推定する手法
自己組織化マップ（Self-Organizing Maps） 高次元データを低次元（主に2次元）に写像し、視覚的にクラスター化するニューラルネットワーク手法

導入ポイント

距離の定義（Distance Metrics） ユークリッド距離、マンハッタン距離、マハラノビス距離など、データの特性に合わせた距離計算を選択
変数の標準化（Standardization） 単位やスケールの異なる変数を扱う際、計算結果の歪みを防ぐための前処理の実行

注意点

外れ値（Outliers）の影響 極端な値を持つ個体が存在する場合、クラスターの形成が著しく阻害される可能性
多重共線性（Multicollinearity） 相関が極めて高い変数同士を同時に投入すると、特定の属性が過剰に評価されるリスク

今後

ビッグデータ活用 計算アルゴリズムの高速化により、大規模な顧客行動ログのリアルタイム分類への応用
AIとの統合 ディープラーニングを用いた特徴量抽出と組み合わせた、より高精度な非構造化データ（画像・音声）の分類

関連キーワード

セグメンテーション（Segmentation）
ターゲットプロファイリング（Target Profiling）
距離行列（Distance Matrix）
エルボー法（Elbow Method）
シルエット係数（Silhouette Coefficient）
k-means法（k-means Clustering）