MulaiMulai sekarang secara gratis

Pohon keputusan

Tugas Anda pada latihan ini adalah membuat pohon keputusan sederhana menggunakan DecisionTreeClassifier dari scikit-learn pada himpunan data breast cancer yang sudah tersedia di scikit-learn.

Himpunan data ini berisi pengukuran numerik berbagai dimensi tumor individual (seperti keliling dan tekstur) dari biopsi payudara serta satu nilai keluaran (tumor bersifat ganas atau jinak).

Kami telah memuat himpunan data sampel (pengukuran) ke dalam X dan nilai target per tumor ke dalam y. Sekarang, Anda harus membagi himpunan data lengkap menjadi himpunan pelatihan dan pengujian, lalu melatih sebuah DecisionTreeClassifier. Anda akan menentukan sebuah parameter bernama max_depth. Banyak parameter lain dapat diubah dalam model ini, dan Anda dapat memeriksa semuanya di sini.

Latihan ini adalah bagian dari kursus

Extreme Gradient Boosting dengan XGBoost

Lihat Kursus

Petunjuk latihan

  • Impor:
    • train_test_split dari sklearn.model_selection.
    • DecisionTreeClassifier dari sklearn.tree.
  • Buat himpunan pelatihan dan uji sehingga 20% data digunakan untuk pengujian. Gunakan random_state bernilai 123.
  • Instansiasi DecisionTreeClassifier bernama dt_clf_4 dengan max_depth bernilai 4. Parameter ini menentukan jumlah maksimum titik pemisah berurutan sebelum mencapai node daun.
  • Sesuaikan classifier ke himpunan pelatihan dan prediksikan label himpunan uji.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the necessary modules
____
____

# Create the training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, test_size=____, random_state=____)

# Instantiate the classifier: dt_clf_4
dt_clf_4 = ____

# Fit the classifier to the training set
____

# Predict the labels of the test set: y_pred_4
y_pred_4 = ____

# Compute the accuracy of the predictions: accuracy
accuracy = float(np.sum(y_pred_4==y_test))/y_test.shape[0]
print("accuracy:", accuracy)
Edit dan Jalankan Kode