主成分分析

直前の2章では、正則化や特徴選択など、データセットの次元削減に関するさまざまな手法を見てきました。Machine Learning の面接では、次元削減の異なる側面を説明できることが重要です。大規模なデータセットは計算に時間がかかり、データ中のノイズは結果に偏りを生む可能性があります。

次元削減の一つの方法が主成分分析（PCA）です。PCA は、データセットの中で最も有用な情報を保ちながら新しい特徴量を作成し、同時に多重共線性を取り除くことで、データのサイズを効果的に小さくします。この演習では、sklearn.decomposition モジュールを使って、diabetes データセットの特徴量に対して PCA を実行し、目的変数 progression を分離します。

現在のパイプライン上の位置は次のとおりです。