クラスター分析(Cluster Analysis)の概要
概要と特徴
- 定義 データ全体の傾向を把握するため、類似した性質を持つ個体をグルーピングする多変量解析(Multivariate Analysis)の手法
- データの性質 事前に正解となる分類(教師データ)を与えない「教師なし学習(Unsupervised Learning)」に該当
- 分析の目的 膨大なデータの中から共通項を見出し、セグメンテーション(Segmentation)やターゲットの特定を行うこと
分類
- 階層的クラスター分析(Hierarchical Cluster Analysis) 似ている個体から順に結合し、最終的に一つの大きなクラスターに統合する手法
- 非階層的クラスター分析(Non-hierarchical Cluster Analysis) あらかじめ決めた数のクラスターに、個体を割り振っていく手法(k-means法など)
上位概念・下位概念
- 上位概念 機械学習(Machine Learning)、データマイニング(Data Mining)、多変量解析
- 下位概念 デンドログラム(Dendrogram)、最短距離法(Nearest Neighbor Method)、ウォード法(Ward's Method)、エルボー法(Elbow Method)
メリット
- 事前情報の不要性 分類基準が未知のデータに対しても、統計的に有意なグループ分けが可能
- 可視化の容易性 階層的分析におけるデンドログラムの使用により、分類過程の視覚的な把握が容易
デメリット
- 主観性の介入 クラスターの数や解釈の決定に分析者の判断が依存
- 計算負荷 サンプルサイズが極端に大きい場合、階層的分析では計算量が膨大になり実行が困難
既存との比較
- 判別分析(Discriminant Analysis)との違い 判別分析は既知のグループへ分類する「教師あり学習」であるのに対し、クラスター分析は未知のグループを作る「教師なし学習」
- 主成分分析(Principal Component Analysis)との違い 主成分分析は変数を集約して次元を削減する手法、クラスター分析は個体をグループ化する手法
競合
- 潜在クラス分析(Latent Class Analysis) 確率モデルに基づき、観測データから背後の潜在的な属性グループを推定する手法
- 自己組織化マップ(Self-Organizing Maps) 高次元データを低次元(主に2次元)に写像し、視覚的にクラスター化するニューラルネットワーク手法
導入ポイント
- 距離の定義(Distance Metrics) ユークリッド距離、マンハッタン距離、マハラノビス距離など、データの特性に合わせた距離計算を選択
- 変数の標準化(Standardization) 単位やスケールの異なる変数を扱う際、計算結果の歪みを防ぐための前処理の実行
注意点
- 外れ値(Outliers)の影響 極端な値を持つ個体が存在する場合、クラスターの形成が著しく阻害される可能性
- 多重共線性(Multicollinearity) 相関が極めて高い変数同士を同時に投入すると、特定の属性が過剰に評価されるリスク
今後
- ビッグデータ活用 計算アルゴリズムの高速化により、大規模な顧客行動ログのリアルタイム分類への応用
- AIとの統合 ディープラーニングを用いた特徴量抽出と組み合わせた、より高精度な非構造化データ(画像・音声)の分類
関連キーワード
- セグメンテーション(Segmentation)
- ターゲットプロファイリング(Target Profiling)
- 距離行列(Distance Matrix)
- エルボー法(Elbow Method)
- シルエット係数(Silhouette Coefficient)
- k-means法(k-means Clustering)