La suddivisione train-test

In un workflow disciplinato di Machine Learning è fondamentale tenere da parte una parte dei dati (testing data) da qualsiasi processo decisionale. Questo ti permette di valutare in modo indipendente le prestazioni del modello una volta finalizzato. I dati rimanenti, i training data, vengono usati per costruire e selezionare il modello migliore.

In questo esercizio userai il pacchetto rsample per suddividere i dati ed eseguire la suddivisione iniziale train-test dei tuoi dati gapminder.

Nota: Poiché si tratta di una suddivisione casuale dei dati, è buona pratica impostare un seed prima di effettuarla.

Questo esercizio fa parte del corso

Machine Learning nel tidyverse

Visualizza corso

Istruzioni dell'esercizio

Suddividi i dati in 75% training e 25% testing usando la funzione initial_split() e assegnala a gap_split.
Estrai il data frame di training da gap_split usando la funzione training().
Estrai il data frame di testing da gap_split usando la funzione testing().
Verifica che le dimensioni dei nuovi data frame siano quelle attese usando la funzione dim() su training_data e testing_data.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

set.seed(42)

# Prepare the initial split object
gap_split <- initial_split(___, prop = ___)

# Extract the training data frame
training_data <- ___

# Extract the testing data frame
testing_data <- ___

# Calculate the dimensions of both training_data and testing_data
dim(___)
dim(___)

Modifica ed esegui il codice