Maak een filter op ontbrekendewaarderatio
De data frame house_sales_df bevat een targetvariabele price en allerlei voorspellers die individuele huizen beschrijven en hun verkoopprijs bepalen. Verschillende features hebben een wisselend aantal ontbrekende waarden. Als de ontbrekendewaarderatio te hoog is, is de feature niet erg informatief om de prijs van het huis te voorspellen. Deze features kun je verwijderen. In deze oefening bereken je de ontbrekendewaarderatio voor elke kolom. Dit helpt je nadenken over een geschikte drempel per kolom.
Het pakket tidyverse is voor je geladen.
Deze oefening maakt deel uit van de cursus
Dimensionality Reduction in R
Oefeninstructies
- Sla het totale aantal rijen in
house_sales_dfop inn. - Bereken de ontbrekendewaarderatios voor elke kolom in
house_sales_dfen sla ze op inmissing_vals_df.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Calculate total rows
___ <- ___(___)
# Calculate missing value ratios
___ <- ___ %>%
___(___(___(), ~ ___(___(.)))) %>%
pivot_longer(everything(), names_to = "feature", values_to = "num_missing_values") %>%
mutate(missing_val_ratio = ___ / ___)
# Display missing value ratios
missing_vals_df