Az/Aşırı uyumdan kaynaklanan hata
Şekerleme veri kümesi aşırı uyuma çok müsait. Yalnızca 85 gözlem varken test veri kümesi için %20 ayırırsan, modelleme için kullanılabilecek çok değerli veriyi kaybedersin. Çikolatalı şekerlemelerin çoğunun eğitim verisine, çok azının da bekletme (holdout) örneğine düştüğü bir senaryoyu düşün. Modelimiz çikolatanın hayati bir etken olduğunu yalnızca görebilir, ama diğer özelliklerin de önemli olduğunu yakalayamayabilir. Bu egzersizde, bir random forest modelinde çok fazla özellik (sütun) kullanmanın nasıl aşırı uyuma yol açabileceğini inceleyeceksin.
Bir özellik, karar ağacında verinin hangi sütunlarının kullanıldığını ifade eder. max_features parametresi kullanılabilir özellik sayısını sınırlar.
Bu egzersiz, kursun bir parçasıdır
Python'da Model Doğrulama
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Update the rfr model
rfr = RandomForestRegressor(____=25,
____=1111,
____=2)
rfr.fit(X_train, y_train)
# Print the training and testing accuracies
print('The training error is {0:.2f}'.format(
mae(y_train, rfr.predict(X_train))))
print('The testing error is {0:.2f}'.format(
mae(y_test, rfr.predict(X_test))))