1. Learn
  2. /
  3. Courses
  4. /
  5. Uczenie maszynowe z modelami drzewiastymi w R

Connected

Exercise

Sprawdzanie overfittingu

Bardzo wysokie AUC na zbiorze treningowym, rzędu \(99,9\%\), może świadczyć o overfittingu. Możliwe jednak, że twój zbiór danych jest po prostu bardzo dobrze ustrukturyzowany albo model jest naprawdę świetny!

Aby sprawdzić, która z tych sytuacji zachodzi, trzeba wyznaczyć pozapróbkowe (out-of-sample) szacunki AUC. Ponieważ nie chcesz jeszcze korzystać ze zbioru testowego, możesz użyć walidacji krzyżowej na zbiorze treningowym.

Dane treningowe customers_train oraz specyfikacja modelu drzew baggingowych spec_bagged są nadal dostępne w twoim środowisku pracy.

Instructions

100 XP
  • Używając funkcji fit_resamples(), wyznacz metrykę roc_auc na podstawie trzech foldów walidacji krzyżowej zbioru treningowego oraz formuły modelu still_customer ~ total_trans_amt + customer_age + education_level.
  • Zbierz metryki z wyniku, aby wyświetlić wartość AUC.