Bouw en evalueer het beste model
Met cross-validatie heb je het beste model gevonden om life_expectancy te voorspellen met alle features in gapminder. Nu je je model hebt gekozen, kun je de onafhankelijke gegevensset (testing_data) die je apart hield gebruiken om de prestatie van dit model op nieuwe data te schatten.
Je bouwt dit model met alle training_data en evalueert met testing_data.
Deze oefening maakt deel uit van de cursus
Machine Learning in de tidyverse
Oefeninstructies
- Gebruik
ranger()om het best presterende model (mtry = 4) te bouwen met alle trainingsdata. Ken dit toe aanbest_model. - Haal de kolom
life_expectancyuittesting_dataen ken die toe aantest_actual. - Voorspel
life_expectancymetbest_modelop detesting-data en ken dit toe aantest_predicted. - Bereken de MAE met de vectors
test_actualentest_predicted.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Build the model using all training data and the best performing parameter
best_model <- ranger(formula = ___, data = ___,
mtry = ___, num.trees = 100, seed = 42)
# Prepare the test_actual vector
test_actual <- testing_data$___
# Predict life_expectancy for the testing_data
test_predicted <- predict(___, ___)$predictions
# Calculate the test MAE
mae(___, ___)