De matrix in
Je hebt zes verschillende waarden voor EducationField geïdentificeerd. Maar je vermoedt dat er meer kunnen opduiken wanneer je het model op nieuwe data draait. Om je hierop voor te bereiden, maak je een hash-index met 50 termen. Het pakket textrecipes en de splits attrition_train en attrition_test zijn al geladen.
Deze oefening maakt deel uit van de cursus
Feature engineering in R
Oefeninstructies
- Voeg een stap toe aan de recipe die een dummy_hash-index genereert voor
EducationField. - Prepare de recipe.
- Bake de geprepte recipe.
- Bind de gebakte recipe-tabel en de waarden van
EducationFieldsamen tot één tabel en print de eerste 7 rijen, evenals kolommen 1 en 18 tot en met 20.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
recipe <- recipe(~EducationField, data = attrition_train) %>%
# Add a step to the recipe that generates a dummy_hash index for EducationField
___(EducationField, prefix = NULL, signed = FALSE, num_terms = 50L)
# Prepare the recipe
object <- recipe %>%
___
# Bake the prepped recipe
baked <- ___(object, new_data = attrition_test)
# Bind the baked recipe table and the EducationField values into one table
bind_cols(___, baked)[1:7,c(1,18:20)]