La suddivisione train-test
In un workflow disciplinato di Machine Learning è fondamentale tenere da parte una parte dei dati (testing data) da qualsiasi processo decisionale. Questo ti permette di valutare in modo indipendente le prestazioni del modello una volta finalizzato. I dati rimanenti, i training data, vengono usati per costruire e selezionare il modello migliore.
In questo esercizio userai il pacchetto rsample per suddividere i dati ed eseguire la suddivisione iniziale train-test dei tuoi dati gapminder.
Nota: Poiché si tratta di una suddivisione casuale dei dati, è buona pratica impostare un seed prima di effettuarla.
Questo esercizio fa parte del corso
Machine Learning nel tidyverse
Istruzioni dell'esercizio
- Suddividi i dati in 75% training e 25% testing usando la funzione
initial_split()e assegnala agap_split. - Estrai il data frame di training da
gap_splitusando la funzionetraining(). - Estrai il data frame di testing da
gap_splitusando la funzionetesting(). - Verifica che le dimensioni dei nuovi data frame siano quelle attese usando la funzione
dim()sutraining_dataetesting_data.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
set.seed(42)
# Prepare the initial split object
gap_split <- initial_split(___, prop = ___)
# Extract the training data frame
training_data <- ___
# Extract the testing data frame
testing_data <- ___
# Calculate the dimensions of both training_data and testing_data
dim(___)
dim(___)