Aan de slagGa gratis aan de slag

De matrix in

Je hebt zes verschillende waarden voor EducationField geïdentificeerd. Maar je vermoedt dat er meer kunnen opduiken wanneer je het model op nieuwe data draait. Om je hierop voor te bereiden, maak je een hash-index met 50 termen. Het pakket textrecipes en de splits attrition_train en attrition_test zijn al geladen.

Deze oefening maakt deel uit van de cursus

Feature engineering in R

Cursus bekijken

Oefeninstructies

  • Voeg een stap toe aan de recipe die een dummy_hash-index genereert voor EducationField.
  • Prepare de recipe.
  • Bake de geprepte recipe.
  • Bind de gebakte recipe-tabel en de waarden van EducationField samen tot één tabel en print de eerste 7 rijen, evenals kolommen 1 en 18 tot en met 20.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

recipe <- recipe(~EducationField, data = attrition_train) %>%
# Add a step to the recipe that generates a dummy_hash index for EducationField
  ___(EducationField, prefix = NULL, signed = FALSE, num_terms = 50L)

# Prepare the recipe
object <- recipe %>%
  ___

# Bake the prepped recipe
baked <- ___(object, new_data = attrition_test)

# Bind the baked recipe table and the EducationField values into one table
bind_cols(___, baked)[1:7,c(1,18:20)]
Code bewerken en uitvoeren