Leistung des Random Forest

Jetzt ist es an der Zeit zu prüfen, ob die Random-Forest-Modelle aus der vorherigen Übung das logistisches Regressionsmodell übertreffen können.

Zur Erinnerung: Der Validate-Recall für das logistische Regressionsmodell lag bei 0,43.

Diese Übung ist Teil des Kurses

Machine Learning im Tidyverse

Kurs anzeigen

Anleitung zur Übung

Bereite die Spalten validate_actual und validate_predicted für jede mtry/Fold-Kombination vor.
Berechne den Recall für jede mtry/Fold-Kombination.
Berechne den durchschnittlichen Recall für jeden Wert von mtry.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

cv_prep_rf <- cv_models_rf %>% 
  mutate(
    # Prepare binary vector of actual Attrition values in validate
    validate_actual = map(validate, ~.x$___ == "___"),
    # Prepare binary vector of predicted Attrition values for validate
    validate_predicted = map2(.x = ___, .y = ___, ~predict(.x, .y, type = "response")$predictions == "Yes")
  )

# Calculate the validate recall for each cross validation fold
cv_perf_recall <- cv_prep_rf %>% 
  mutate(recall = map2_dbl(.x = ___, .y = ___, ~recall(actual = .x, predicted = .y)))

# Calculate the mean recall for each mtry used  
cv_perf_recall %>% 
  group_by(___) %>% 
  summarise(mean_recall = mean(___))

Code bearbeiten und ausführen