Apakah saya underfitting?
Anda membuat model random forest untuk memprediksi apakah Anda akan menang dalam permainan Tic-Tac-Toe di masa depan. Dengan menggunakan himpunan data tic_tac_toe, Anda telah membuat himpunan data pelatihan dan pengujian, yaitu X_train, X_test, y_train, dan y_test.
Anda memutuskan untuk membuat sejumlah model random forest dengan jumlah pohon yang bervariasi (1, 2, 3, 4, 5, 10, 20, dan 50). Semakin banyak pohon yang Anda gunakan, semakin lama waktu eksekusi model random forest Anda. Namun, jika jumlah pohon tidak cukup, Anda berisiko mengalami underfitting. Anda telah membuat sebuah perulangan for untuk menguji model pada berbagai jumlah pohon tersebut.
Latihan ini adalah bagian dari kursus
Validasi Model di Python
Petunjuk latihan
- Pada setiap iterasi, prediksikan nilai untuk himpunan data
X_traindanX_test. - Pada setiap iterasi, tambahkan
accuracy_score()dari himpunan datay_traindan prediksi yang sesuai ketrain_scores. - Pada setiap iterasi, tambahkan
accuracy_score()dari himpunan datay_testdan prediksi yang sesuai ketest_scores. - Cetak skor pelatihan dan pengujian menggunakan pernyataan print yang disediakan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
from sklearn.metrics import accuracy_score
test_scores, train_scores = [], []
for i in [1, 2, 3, 4, 5, 10, 20, 50]:
rfc = RandomForestClassifier(n_estimators=i, random_state=1111)
rfc.fit(X_train, y_train)
# Create predictions for the X_train and X_test datasets.
train_predictions = rfc.predict(____)
test_predictions = rfc.predict(____)
# Append the accuracy score for the test and train predictions.
train_scores.append(round(____(____, ____), 2))
test_scores.append(round(____(____, ____), 2))
# Print the train and test scores.
print("The training scores were: {}".format(____))
print("The testing scores were: {}".format(____))