Erstelle ein Rezept für hohe Korrelationen
Sobald du stark korrelierte Features identifiziert hast, kannst du statt einer manuellen Entfernung den Rezeptschritt step_corr() in tidymodels verwenden. step_corr() entfernt nicht alle Features, die mit anderen korrelieren. Es versucht, so wenige Features wie möglich zu entfernen. Konzeptionell entfernt es, wie du in der Multiple-Choice-Aufgabe gesehen hast, das Feature mit der größten Überlappung zu jeder Kombination anderer Features. Die Idee dahinter: Die anderen Features enthalten dieselben Informationen, sodass die überlappenden Informationen des entfernten Features in diesen anderen Features weiterhin vertreten sind.
Die Pakete tidyverse und tidymodels wurden für dich geladen.
Diese Übung ist Teil des Kurses
Dimensionsreduktion in R
Anleitung zur Übung
- Erstelle ein Rezept, das
step_corr()mit einem Schwellwert von 0,7 verwendet und den Schritt nur auf numerische Prädiktoren anwendet. - Wende das Rezept auf
house_sales_dfan und speichere die gefilterten Daten infiltered_house_sales_df. - Verwende
tidy(), um die Spalte(n) zu identifizieren, die derstep_corr()-Filter entfernt hat.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a recipe using step_corr to remove numeric predictors correlated > 0.7
corr_recipe <-
___(price ~ ., data = ___) %>%
___(___, ___ = ___) %>%
___(___)
# Apply the recipe to the data
___ <-
___ %>%
___(new_data = ___)
# Identify the features that were removed
___(___, ___ = ___)