Daten mithilfe von Feature-Importances reduzieren
Nachdem du ein vollständiges Random-Forest-Modell erstellt hast, untersuchst du nun die Feature-Importance.
Auch wenn Random-Forest-Modelle natürliche — aber implizite — Merkmalsauswahl durchführen, ist es oft sinnvoll, ein reduziertes Modell zu bauen. Ein reduziertes Modell trainiert schneller, sagt schneller voraus und ist leichter zu verstehen und zu warten. Natürlich ist das immer ein Abwägen zwischen Modellschlichtheit und Modellleistung.
In dieser Übung reduzierst du den Datensatz. In der nächsten Übung passt du ein reduziertes Modell an und vergleichst dessen Leistung mit dem vollständigen Modell. rf_fit, train und test sind bereits für dich vorhanden.
Die Pakete tidyverse, tidymodels und vip wurden für dich geladen.
Diese Übung ist Teil des Kurses
Dimensionsreduktion in R
Anleitung zur Übung
- Verwende
vi()mit dem Parameterrank, um die zehn wichtigsten Features zu extrahieren. - Füge die Zielvariable wieder zur Liste der Top-Features hinzu.
- Wende die Top-Feature-Maske an, um die Datensätze zu reduzieren.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Extract the top ten features
top_features <- ___ %>%
___(___ = ___) %>%
filter(___) %>%
pull(Variable)
# Add the target variable to the feature list
top_features <- c(___, "___")
# Reduce and print the data sets
train_reduced <- train[___]
test_reduced <- ___[___]
train_reduced %>% head(5)
test_reduced %>% head(5)