Dividi i set di train e test
Il primo passo per addestrare un modello è suddividere i dati in set di train e di test. Il pacchetto tidymodels lo rende semplice. Mettere da parte un insieme di test ti permette di valutare il modello addestrato su dati che non ha mai visto.
Userai i dati di abbandono del personale nel settore sanitario, che contengono informazioni sui dipendenti di un'azienda sanitaria e indicano se hanno lasciato l'azienda o meno. Sono disponibili in attrition_df. La variabile target è Attrition.
I pacchetti tidyverse e tidymodels sono già stati caricati per te.
Questo esercizio fa parte del corso
Riduzione della dimensionalità in R
Istruzioni dell'esercizio
- Inizializza una suddivisione dei dati con l'80% per il training e stratifica in base a
Attrition, la variabile target. - Estrai l'insieme di training e salvalo in
train. - Estrai l'insieme di testing e salvalo in
test.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Initialize the split
split <- ___(___, ___ = ___, strata = ___)
# Extract training set
train <- ___ %>% ___()
# Extract testing set
test <- ___ %>% ___()