Aan de slagBegin gratis

De matrix in

Je hebt zes verschillende waarden voor EducationField geïdentificeerd. Maar je vermoedt dat er meer kunnen opduiken wanneer je het model op nieuwe data draait. Om je hierop voor te bereiden, maak je een hash-index met 50 termen. Het pakket textrecipes en de splits attrition_train en attrition_test zijn al geladen.

Deze oefening maakt deel uit van de cursus

Feature engineering in R

Bekijk cursus

Oefeninstructies

  • Voeg een stap toe aan de recipe die een dummy_hash-index genereert voor EducationField.
  • Prepare de recipe.
  • Bake de geprepte recipe.
  • Bind de gebakte recipe-tabel en de waarden van EducationField samen tot één tabel en print de eerste 7 rijen, evenals kolommen 1 en 18 tot en met 20.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

recipe <- recipe(~EducationField, data = attrition_train) %>%
# Add a step to the recipe that generates a dummy_hash index for EducationField
  ___(EducationField, prefix = NULL, signed = FALSE, num_terms = 50L)

# Prepare the recipe
object <- recipe %>%
  ___

# Bake the prepped recipe
baked <- ___(object, new_data = attrition_test)

# Bind the baked recipe table and the EducationField values into one table
bind_cols(___, baked)[1:7,c(1,18:20)]
Code bewerken en uitvoeren