Belangrijke features selecteren
In deze oefening is het jouw taak om alleen de belangrijkste features te selecteren die door het eindmodel worden gebruikt. Onthoud dat de relatieve importanties zijn opgeslagen in de kolom importance van de DataFrame relative_importances.
Deze oefening maakt deel uit van de cursus
HR-analytics: verloop van medewerkers voorspellen in Python
Oefeninstructies
- Selecteer alleen de features met een
importance-waarde hoger dan 1%. - Maak een lijst van die features en print ze (dit is al voor je gedaan).
- Gebruik de index die is opgeslagen in
selected_listom zowelfeatures_trainalsfeatures_testte transformeren zodat ze alleen de features met een importance hoger dan 1% bevatten.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# select only features with relative importance higher than 1%
selected_features = relative_importances[relative_importances.____>0.01]
# create a list from those features: done
selected_list = selected_features.index
# transform both features_train and features_test components to include only selected features
features_train_selected = features_train[selected_list]
features_test_selected = ____[____]