Probeer een 60/40-splitsing

Zoals je in de video zag, werk je in dit hoofdstuk met de gegevensset Sonar, met 60% als trainingsset en 40% als testset. We oefenen nog één keer met het maken van een train/test-splitsing, zodat je de slag helemaal te pakken hebt. Onthoud dat je de functie sample() kunt gebruiken om een willekeurige permutatie van de rijnummers in een gegevensset te krijgen, om te gebruiken bij train/test-splitsingen, bijvoorbeeld:

n_obs <- nrow(my_data)
permuted_rows <- sample(n_obs)

En gebruik die rijnummers vervolgens om de gegevensset willekeurig te herordenen, bijvoorbeeld:

my_data <- my_data[permuted_rows, ]

Zodra je gegevensset willekeurig geordend is, kun je de eerste 60% afscheiden als trainingsset en de laatste 40% als testset.

Deze oefening maakt deel uit van de cursus

Machine Learning met caret in R

Bekijk cursus

Oefeninstructies

Bepaal het aantal observaties (rijen) in Sonar en wijs dit toe aan n_obs.
Hussel de rijnummers van Sonar en sla het resultaat op in permuted_rows.
Gebruik permuted_rows om de rijen van Sonar willekeurig te herordenen en sla dit op als Sonar_shuffled.
Bepaal het juiste rijnummer om op te splitsen voor een 60/40-splitsing. Sla dit rijnummer op als split.
Sla de eerste 60% van Sonar_shuffled op als trainingsset.
Sla de laatste 40% van Sonar_shuffled op als testset.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Get the number of observations


# Shuffle row indices: permuted_rows


# Randomly order data: Sonar


# Identify row to split on: split
split <- round(n_obs * ___)

# Create train


# Create test

Code bewerken en uitvoeren