Erstelle ein Rezept für hohe Korrelationen

Sobald du stark korrelierte Features identifiziert hast, kannst du statt einer manuellen Entfernung den Rezeptschritt step_corr() in tidymodels verwenden. step_corr() entfernt nicht alle Features, die mit anderen korrelieren. Es versucht, so wenige Features wie möglich zu entfernen. Konzeptionell entfernt es, wie du in der Multiple-Choice-Aufgabe gesehen hast, das Feature mit der größten Überlappung zu jeder Kombination anderer Features. Die Idee dahinter: Die anderen Features enthalten dieselben Informationen, sodass die überlappenden Informationen des entfernten Features in diesen anderen Features weiterhin vertreten sind.

Die Pakete tidyverse und tidymodels wurden für dich geladen.

Diese Übung ist Teil des Kurses

<Kurs>Dimensionsreduktion in R</Kurs>

Kurs ansehen

Übungsanweisungen

Erstelle ein Rezept, das step_corr() mit einem Schwellwert von 0,7 verwendet und den Schritt nur auf numerische Prädiktoren anwendet.
Wende das Rezept auf house_sales_df an und speichere die gefilterten Daten in filtered_house_sales_df.
Verwende tidy(), um die Spalte(n) zu identifizieren, die der step_corr()-Filter entfernt hat.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create a recipe using step_corr to remove numeric predictors correlated > 0.7
corr_recipe <-  
  ___(price ~ ., data = ___) %>% 
  ___(___, ___ = ___) %>% 
  ___(___) 

# Apply the recipe to the data
___ <- 
  ___ %>% 
  ___(new_data = ___)

# Identify the features that were removed
___(___, ___ = ___)

Code bearbeiten und ausführen