特徴選択

モデリングの前処理では、モデルが予測（または診断）の根拠とするのに役立つ特徴量のセットを用意することが重要です。役に立つためには、特徴量が心疾患データセットの本質的な特性を互いに直交的な形で捉える必要があります。データは多ければよいというわけではありません！

sklearn.feature_selection.SelectFromModel モジュールを使うと、有用な特徴量を選択できます。SelectFromModel は、RandomForestClassifier モデルを用いて心疾患診断のタスクに最も重要な特徴量を見つける、総当たり型の方法を実装しています。

RandomForestClassifier はすでにインポート済みで、心疾患データの特徴量と目的変数はそれぞれ X_train と y_train として読み込まれています。