Creare insieme di addestramento e di test
Dividere un insieme di dati in set di addestramento e di test è un passaggio fondamentale per costruire e valutare un modello di classificazione. Il set di addestramento serve per costruire il modello, mentre il set di test per valutarne l'accuratezza predittiva.
In questo esercizio, dividerai l'insieme di dati che hai creato nel capitolo precedente in set di addestramento e di test. L'insieme di dati è stato caricato nel data frame df ed è già stato impostato un seed per garantire la riproducibilità. Ricorda che nel video precedente abbiamo impostato il limite superiore per la dimensione del set di addestramento usando alcune funzioni utili: ora tocca a te implementarle!
Questo esercizio fa parte del corso
Support Vector Machines in R
Istruzioni dell'esercizio
- Determina il limite superiore del numero di righe da includere nel set di addestramento e salvalo in
sample_size. - Crea il vettore
trainche memorizza l'assegnazione casuale del set di addestramento secondo la proporzione 80/20. - Assegna le righe nel vettore
trainal data frametrainsete le restanti al data frametestset.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Set the upper bound for the length of the training set
sample_size <- ___(___ * nrow(df))
# Assign rows to training set randomly
train <- ___(seq_len(nrow(df)), size = ___)
# Yield training and test sets
trainset <- df[___, ]
testset <- df[-___, ]