Aan de slagGa gratis aan de slag

Missende waarden imputeren en dummyvariabelen maken

Nadat je missende waarden in de attrition-gegevensset hebt gevonden en hebt vastgesteld dat ze volledig willekeurig ontbreken (MCAR), besluit je K Nearest Neighbors (KNN)-imputatie te gebruiken. Bij het configureren van je feature engineering-recipe besluit je dummyvariabelen te maken voor al je nominale variabelen en de rol van de variabele ...1 bij te werken naar "ID", zodat je die in de gegevensset kunt houden ter referentie zonder je model te beïnvloeden.

Deze oefening maakt deel uit van de cursus

Feature engineering in R

Cursus bekijken

Oefeninstructies

  • Werk de rol van ...1 bij naar "ID".
  • Imputeer waarden voor alle predictoren waar gegevens ontbreken.
  • Maak dummyvariabelen voor alle nominale predictoren.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

lr_model <- logistic_reg()

lr_recipe <- 
  recipe(Attrition ~., data = train) %>%

# Update the role of "...1" to "ID"
  ___(...1, new_role = "ID" ) %>%

# Impute values to all predictors where data are missing
  step_impute_knn(___) %>%

# Create dummy variables for all nominal predictors
  ___(all_nominal_predictors())

lr_recipe
Code bewerken en uitvoeren