Prestaties van random forest
Tijd om te kijken of de random-forestmodellen die je in de vorige oefening hebt gebouwd, beter presteren dan het logistische-regressiemodel.
Onthoud dat de validate recall voor het logistische-regressiemodel 0,43 was.
Deze oefening maakt deel uit van de cursus
Machine Learning in de tidyverse
Oefeninstructies
- Bereid de kolommen
validate_actualenvalidate_predictedvoor voor elke mtry/fold-combinatie. - Bereken de recall voor elke mtry/fold-combinatie.
- Bereken de gemiddelde recall voor elke waarde van
mtry.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
cv_prep_rf <- cv_models_rf %>%
mutate(
# Prepare binary vector of actual Attrition values in validate
validate_actual = map(validate, ~.x$___ == "___"),
# Prepare binary vector of predicted Attrition values for validate
validate_predicted = map2(.x = ___, .y = ___, ~predict(.x, .y, type = "response")$predictions == "Yes")
)
# Calculate the validate recall for each cross validation fold
cv_perf_recall <- cv_prep_rf %>%
mutate(recall = map2_dbl(.x = ___, .y = ___, ~recall(actual = .x, predicted = .y)))
# Calculate the mean recall for each mtry used
cv_perf_recall %>%
group_by(___) %>%
summarise(mean_recall = mean(___))