Aan de slagGa gratis aan de slag

Maak een filter op ontbrekendewaarderatio

De data frame house_sales_df bevat een targetvariabele price en allerlei voorspellers die individuele huizen beschrijven en hun verkoopprijs bepalen. Verschillende features hebben een wisselend aantal ontbrekende waarden. Als de ontbrekendewaarderatio te hoog is, is de feature niet erg informatief om de prijs van het huis te voorspellen. Deze features kun je verwijderen. In deze oefening bereken je de ontbrekendewaarderatio voor elke kolom. Dit helpt je nadenken over een geschikte drempel per kolom.

Het pakket tidyverse is voor je geladen.

Deze oefening maakt deel uit van de cursus

Dimensionality Reduction in R

Cursus bekijken

Oefeninstructies

  • Sla het totale aantal rijen in house_sales_df op in n.
  • Bereken de ontbrekendewaarderatios voor elke kolom in house_sales_df en sla ze op in missing_vals_df.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Calculate total rows
___ <-  ___(___)

# Calculate missing value ratios
___ <- ___ %>% 
  ___(___(___(), ~ ___(___(.)))) %>% 
  pivot_longer(everything(), names_to = "feature", values_to = "num_missing_values") %>% 
  mutate(missing_val_ratio = ___ / ___)

# Display missing value ratios
missing_vals_df
Code bewerken en uitvoeren