Prestaties van random forest

Tijd om te kijken of de random-forestmodellen die je in de vorige oefening hebt gebouwd, beter presteren dan het logistische-regressiemodel.

Onthoud dat de validate recall voor het logistische-regressiemodel 0,43 was.

Deze oefening maakt deel uit van de cursus

Machine Learning in de tidyverse

Bekijk cursus

Oefeninstructies

Bereid de kolommen validate_actual en validate_predicted voor voor elke mtry/fold-combinatie.
Bereken de recall voor elke mtry/fold-combinatie.
Bereken de gemiddelde recall voor elke waarde van mtry.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

cv_prep_rf <- cv_models_rf %>% 
  mutate(
    # Prepare binary vector of actual Attrition values in validate
    validate_actual = map(validate, ~.x$___ == "___"),
    # Prepare binary vector of predicted Attrition values for validate
    validate_predicted = map2(.x = ___, .y = ___, ~predict(.x, .y, type = "response")$predictions == "Yes")
  )

# Calculate the validate recall for each cross validation fold
cv_perf_recall <- cv_prep_rf %>% 
  mutate(recall = map2_dbl(.x = ___, .y = ___, ~recall(actual = .x, predicted = .y)))

# Calculate the mean recall for each mtry used  
cv_perf_recall %>% 
  group_by(___) %>% 
  summarise(mean_recall = mean(___))

Code bewerken en uitvoeren