Campionamento dei dati
Il primo passo in un progetto di Machine Learning è creare i dataset di training e di test per l’addestramento e la valutazione del modello. Il dataset di test fornisce una stima di come il modello si comporterà su nuovi dati e aiuta a prevenire l’overfitting.
Lavorerai con l’insieme di dati telecom_df, che contiene informazioni sui clienti di un’azienda di telecomunicazioni. La variabile di esito è canceled_service e indica se un cliente ha annullato il contratto con l’azienda. Le variabili predittive includono informazioni sull’uso del cellulare e di Internet, oltre al tipo di contratto e ai costi mensili.
Il tibble telecom_df è stato caricato nella tua sessione.
Questo esercizio fa parte del corso
Modellazione con tidymodels in R
Istruzioni dell'esercizio
- Crea un oggetto
rsample,telecom_split, che contenga le istruzioni per suddividere casualmente i datitelecom_dfnei dataset di training e di test.- Assegna il 75% dei dati al training e stratifica i risultati in base a
canceled_service.
- Assegna il 75% dei dati al training e stratifica i risultati in base a
- Passa l’oggetto
telecom_splitalle funzionirsampleappropriate per creare i dataset di training e di test. - Verifica il numero di righe di ciascun dataset passandolo alla funzione
nrow().
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create data split object
telecom_split <- ___(___, prop = ___,
strata = ___)
# Create the training data
telecom_training <- ___ %>%
___
# Create the test data
telecom_test <- ___ %>%
___
# Check the number of rows
nrow(___)
nrow(___)