Probeer een 60/40-splitsing
Zoals je in de video zag, werk je in dit hoofdstuk met de gegevensset Sonar, met 60% als trainingsset en 40% als testset. We oefenen nog één keer met het maken van een train/test-splitsing, zodat je de slag helemaal te pakken hebt. Onthoud dat je de functie sample() kunt gebruiken om een willekeurige permutatie van de rijnummers in een gegevensset te krijgen, om te gebruiken bij train/test-splitsingen, bijvoorbeeld:
n_obs <- nrow(my_data)
permuted_rows <- sample(n_obs)
En gebruik die rijnummers vervolgens om de gegevensset willekeurig te herordenen, bijvoorbeeld:
my_data <- my_data[permuted_rows, ]
Zodra je gegevensset willekeurig geordend is, kun je de eerste 60% afscheiden als trainingsset en de laatste 40% als testset.
Deze oefening maakt deel uit van de cursus
Machine Learning met caret in R
Oefeninstructies
- Bepaal het aantal observaties (rijen) in
Sonaren wijs dit toe aann_obs. - Hussel de rijnummers van
Sonaren sla het resultaat op inpermuted_rows. - Gebruik
permuted_rowsom de rijen vanSonarwillekeurig te herordenen en sla dit op alsSonar_shuffled. - Bepaal het juiste rijnummer om op te splitsen voor een 60/40-splitsing. Sla dit rijnummer op als
split. - Sla de eerste 60% van
Sonar_shuffledop als trainingsset. - Sla de laatste 40% van
Sonar_shuffledop als testset.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Get the number of observations
# Shuffle row indices: permuted_rows
# Randomly order data: Sonar
# Identify row to split on: split
split <- round(n_obs * ___)
# Create train
# Create test