Az/Aşırı uyumdan kaynaklanan hata
Şekerleme veri kümesi aşırı uyuma çok müsait. Yalnızca 85 gözlem varken test veri kümesi için %20 ayırırsan, modelleme için kullanılabilecek çok değerli veriyi kaybedersin. Çikolatalı şekerlemelerin çoğunun eğitim verisine, çok azının da bekletme (holdout) örneğine düştüğü bir senaryoyu düşün. Modelimiz çikolatanın hayati bir etken olduğunu yalnızca görebilir, ama diğer özelliklerin de önemli olduğunu yakalayamayabilir. Bu egzersizde, bir random forest modelinde çok fazla özellik (sütun) kullanmanın nasıl aşırı uyuma yol açabileceğini inceleyeceksin.
Bir özellik, karar ağacında verinin hangi sütunlarının kullanıldığını ifade eder. max_features parametresi kullanılabilir özellik sayısını sınırlar.
Bu egzersiz
Python'da Model Doğrulama
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Update the rfr model
rfr = RandomForestRegressor(____=25,
____=1111,
____=2)
rfr.fit(X_train, y_train)
# Print the training and testing accuracies
print('The training error is {0:.2f}'.format(
mae(y_train, rfr.predict(X_train))))
print('The testing error is {0:.2f}'.format(
mae(y_test, rfr.predict(X_test))))