Aan de slagGa gratis aan de slag

Belangrijke features selecteren

In deze oefening is het jouw taak om alleen de belangrijkste features te selecteren die door het eindmodel worden gebruikt. Onthoud dat de relatieve importanties zijn opgeslagen in de kolom importance van de DataFrame relative_importances.

Deze oefening maakt deel uit van de cursus

HR-analytics: verloop van medewerkers voorspellen in Python

Cursus bekijken

Oefeninstructies

  • Selecteer alleen de features met een importance-waarde hoger dan 1%.
  • Maak een lijst van die features en print ze (dit is al voor je gedaan).
  • Gebruik de index die is opgeslagen in selected_list om zowel features_train als features_test te transformeren zodat ze alleen de features met een importance hoger dan 1% bevatten.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# select only features with relative importance higher than 1%
selected_features = relative_importances[relative_importances.____>0.01]

# create a list from those features: done
selected_list = selected_features.index

# transform both features_train and features_test components to include only selected features
features_train_selected = features_train[selected_list]
features_test_selected = ____[____]
Code bewerken en uitvoeren