Maak een high-correlation-recept

Als je sterk gecorreleerde features hebt gevonden, kun je in plaats van ze handmatig te verwijderen de receptstap step_corr() in tidymodels gebruiken. step_corr() verwijdert niet alle features die met andere features correleren. Het probeert zo weinig mogelijk features te verwijderen. Conceptueel, zoals je zag in de multiplechoice-oefening, verwijdert het de feature die de meeste overlap heeft met elke combinatie van andere features. Het idee is dat de andere features dezelfde informatie bevatten, zodat de overlappende informatie van de verwijderde feature nog steeds vertegenwoordigd is in die andere features.

De pakketten tidyverse en tidymodels zijn alvast voor je geladen.

Deze oefening maakt deel uit van de cursus

Dimensionality Reduction in R

Bekijk cursus

Oefeninstructies

Maak een recept dat step_corr() gebruikt met een drempel van 0,7, en pas de stap alleen toe op numerieke predictoren.
Pas het recept toe op house_sales_df en sla de gefilterde data op in filtered_house_sales_df.
Gebruik tidy() om de kolom of kolommen te identificeren die door de step_corr()-filter zijn verwijderd.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create a recipe using step_corr to remove numeric predictors correlated > 0.7
corr_recipe <-  
  ___(price ~ ., data = ___) %>% 
  ___(___, ___ = ___) %>% 
  ___(___) 

# Apply the recipe to the data
___ <- 
  ___ %>% 
  ___(new_data = ___)

# Identify the features that were removed
___(___, ___ = ___)

Code bewerken en uitvoeren