Campionamento dei dati

Il primo passo in un progetto di Machine Learning è creare i dataset di training e di test per l’addestramento e la valutazione del modello. Il dataset di test fornisce una stima di come il modello si comporterà su nuovi dati e aiuta a prevenire l’overfitting.

Lavorerai con l’insieme di dati telecom_df, che contiene informazioni sui clienti di un’azienda di telecomunicazioni. La variabile di esito è canceled_service e indica se un cliente ha annullato il contratto con l’azienda. Le variabili predittive includono informazioni sull’uso del cellulare e di Internet, oltre al tipo di contratto e ai costi mensili.

Il tibble telecom_df è stato caricato nella tua sessione.

Questo esercizio fa parte del corso

Modellazione con tidymodels in R

Visualizza corso

Istruzioni dell'esercizio

Crea un oggetto rsample, telecom_split, che contenga le istruzioni per suddividere casualmente i dati telecom_df nei dataset di training e di test.
- Assegna il 75% dei dati al training e stratifica i risultati in base a canceled_service.
Passa l’oggetto telecom_split alle funzioni rsample appropriate per creare i dataset di training e di test.
Verifica il numero di righe di ciascun dataset passandolo alla funzione nrow().

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create data split object
telecom_split <- ___(___, prop = ___,
                     strata = ___)

# Create the training data
telecom_training <- ___ %>% 
  ___

# Create the test data
telecom_test <- ___ %>% 
  ___

# Check the number of rows
nrow(___)
nrow(___)

Modifica ed esegui il codice