Feature-Auswahl
Bei der Vorbereitung deiner Daten für das Modellieren ist es wichtig sicherzustellen, dass du eine sinnvolle Menge an Features hast, auf deren Grundlage das Modell seine Vorhersagen (oder Diagnosen) trifft. Damit Features hilfreich sind, müssen sie die wesentlichen Eigenschaften des Herzkrankheits-Datensatzes auf orthogonale Weise erfassen; mehr Daten sind nicht immer besser!
Du kannst das Modul sklearn.feature_selection.SelectFromModel verwenden, um nützliche Features auszuwählen. SelectFromModel implementiert eine Brute-Force-Methode, die ein RandomForestClassifier-Modell nutzt, um die aussagekräftigsten Features für die Diagnose von Herzkrankheiten zu finden.
RandomForestClassifier wurde importiert, und die Merkmale und das Ziel des Herzkrankheits-Datensatzes wurden als X_train bzw. y_train importiert.
Diese Übung ist Teil des Kurses
End-to-End Machine Learning
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
from sklearn.feature_selection import SelectFromModel
# Define the random forest model and fit to the training data
rf = ____(____=____, ____=____, ____=____)
rf.____(____, ____)