Maak een high-correlation-recept
Als je sterk gecorreleerde features hebt gevonden, kun je in plaats van ze handmatig te verwijderen de receptstap step_corr() in tidymodels gebruiken. step_corr() verwijdert niet alle features die met andere features correleren. Het probeert zo weinig mogelijk features te verwijderen. Conceptueel, zoals je zag in de multiplechoice-oefening, verwijdert het de feature die de meeste overlap heeft met elke combinatie van andere features. Het idee is dat de andere features dezelfde informatie bevatten, zodat de overlappende informatie van de verwijderde feature nog steeds vertegenwoordigd is in die andere features.
De pakketten tidyverse en tidymodels zijn alvast voor je geladen.
Deze oefening maakt deel uit van de cursus
Dimensionality Reduction in R
Oefeninstructies
- Maak een recept dat
step_corr()gebruikt met een drempel van 0,7, en pas de stap alleen toe op numerieke predictoren. - Pas het recept toe op
house_sales_dfen sla de gefilterde data op infiltered_house_sales_df. - Gebruik
tidy()om de kolom of kolommen te identificeren die door destep_corr()-filter zijn verwijderd.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a recipe using step_corr to remove numeric predictors correlated > 0.7
corr_recipe <-
___(price ~ ., data = ___) %>%
___(___, ___ = ___) %>%
___(___)
# Apply the recipe to the data
___ <-
___ %>%
___(new_data = ___)
# Identify the features that were removed
___(___, ___ = ___)