Galat akibat under/overfitting
Himpunan data permen sangat rentan mengalami overfitting. Dengan hanya 85 observasi, jika Anda menggunakan 20% untuk himpunan data pengujian, Anda kehilangan banyak data penting yang bisa digunakan untuk pemodelan. Bayangkan skenario ketika sebagian besar permen cokelat masuk ke data pelatihan dan hanya sedikit yang masuk ke sampel holdout. Model kita mungkin hanya melihat bahwa cokelat adalah faktor penting, tetapi gagal menemukan bahwa atribut lain juga berperan. Dalam latihan ini, Anda akan mengeksplorasi bagaimana menggunakan terlalu banyak fitur (kolom) dalam model random forest dapat menyebabkan overfitting.
Sebuah fitur merepresentasikan kolom mana dari data yang digunakan dalam pohon keputusan. Parameter max_features membatasi jumlah fitur yang tersedia.
Latihan ini adalah bagian dari kursus
Validasi Model di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Update the rfr model
rfr = RandomForestRegressor(____=25,
____=1111,
____=2)
rfr.fit(X_train, y_train)
# Print the training and testing accuracies
print('The training error is {0:.2f}'.format(
mae(y_train, rfr.predict(X_train))))
print('The testing error is {0:.2f}'.format(
mae(y_test, rfr.predict(X_test))))