Menilai pengklasifikasi prediksi diabetes

Pada bab ini Anda akan bekerja dengan himpunan data diabetes_df yang telah diperkenalkan sebelumnya.

Tujuannya adalah memprediksi apakah setiap individu kemungkinan memiliki diabetes atau tidak berdasarkan fitur body mass index (BMI) dan usia (dalam tahun). Oleh karena itu, ini adalah masalah klasifikasi biner. Nilai target 0 menunjukkan bahwa individu tersebut tidak memiliki diabetes, sedangkan nilai 1 menunjukkan bahwa individu tersebut memiliki diabetes.

diabetes_df telah dimuat sebelumnya untuk Anda sebagai pandas DataFrame dan dibagi menjadi X_train, X_test, y_train, dan y_test. Selain itu, sebuah KNeighborsClassifier() telah diinisialisasi dan ditetapkan ke knn.

Anda akan melatih model, membuat prediksi pada himpunan uji, kemudian menghasilkan confusion matrix dan classification report.

Latihan ini merupakan bagian dari kursus

Supervised Learning dengan scikit-learn

Instruksi latihan

Impor confusion_matrix dan classification_report.
Latih model pada data pelatihan.
Prediksi label himpunan uji, lalu simpan hasilnya sebagai y_pred.
Hitung dan cetak confusion matrix dan classification report untuk label uji dibandingkan label prediksi.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import confusion matrix
____

knn = KNeighborsClassifier(n_neighbors=6)

# Fit the model to the training data
____

# Predict the labels of the test data: y_pred
y_pred = ____

# Generate the confusion matrix and classification report
print(____(____, ____))
print(____(____, ____))

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Supervised Learning dengan scikit-learn

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Pada bab ini, Anda akan diperkenalkan pada masalah klasifikasi dan mempelajari cara menyelesaikannya menggunakan teknik supervised learning. Anda akan belajar membagi data menjadi himpunan latih dan uji, memasangkan model, membuat prediksi, dan mengevaluasi akurasi. Anda juga akan mempelajari hubungan antara kompleksitas model dan kinerja, lalu menerapkannya pada himpunan data churn untuk mengklasifikasikan status churn pelanggan sebuah perusahaan telekomunikasi.

Exercise 1: Machine Learning dengan scikit-learn Exercise 2: Klasifikasi biner Exercise 3: Alur kerja supervised learning Exercise 4: Tantangan klasifikasi Exercise 5: k-Nearest Neighbors: Pemodelan (Fit)Exercise 6: k-Nearest Neighbors: Prediksi Exercise 7: Mengukur kinerja model Exercise 8: Pembagian train/test + menghitung akurasi Exercise 9: Overfitting dan underfitting Exercise 10: Memvisualisasikan kompleksitas model

Pada bab ini, Anda akan diperkenalkan pada regresi, dan membangun model untuk memprediksi nilai penjualan menggunakan himpunan data pengeluaran iklan. Anda akan mempelajari mekanisme regresi linear dan metrik kinerja umum seperti R-squared dan root mean squared error. Anda akan melakukan cross-validation k-fold, serta menerapkan regularisasi pada model regresi untuk mengurangi risiko overfitting.

Exercise 1: Pengantar regresi Exercise 2: Membuat fitur Exercise 3: Membangun model regresi linear Exercise 4: Memvisualisasikan model regresi linear Exercise 5: Dasar-dasar regresi linear Exercise 6: Fit dan prediksi untuk regresi Exercise 7: Kinerja regresi Exercise 8: Validasi silang Exercise 9: Cross-validation untuk R-squared Exercise 10: Menganalisis metrik cross-validation Exercise 11: Regresi teratur Exercise 12: Regularized regression: Ridge Exercise 13: Regresi lasso untuk pentingnya fitur

Setelah melatih model, kini Anda akan belajar cara mengevaluasinya. Pada bab ini, Anda akan diperkenalkan pada beberapa metrik beserta teknik visualisasi untuk menganalisis kinerja model klasifikasi menggunakan scikit-learn. Anda juga akan mempelajari cara mengoptimalkan model klasifikasi dan regresi melalui penyetelan hyperparameter.

Exercise 1: Seberapa baik model Anda?Exercise 2: Menentukan metrik utama Exercise 3: Menilai pengklasifikasi prediksi diabetes

Latihan Saat Ini

Exercise 4: Regresi logistik dan kurva ROC Exercise 5: Membangun model logistic regression Exercise 6: Kurva ROC Exercise 7: ROC AUC Exercise 8: Penyetelan hiperparameter Exercise 9: Penyetelan hyperparameter dengan GridSearchCV Exercise 10: Hyperparameter tuning dengan RandomizedSearchCV

Pelajari cara mengimputasi nilai yang hilang, mengonversi data kategorikal menjadi numerik, men-skala data, mengevaluasi beberapa model supervised learning secara bersamaan, dan membangun pipeline untuk menyederhanakan alur kerja Anda!

Exercise 1: Praproses data Exercise 2: Membuat variabel dummy Exercise 3: Regresi dengan fitur kategorikal Exercise 4: Menangani data hilang Exercise 5: Menghapus data hilang Exercise 6: Pipeline untuk prediksi genre lagu: I Exercise 7: Pipeline untuk prediksi genre lagu: II Exercise 8: Pemusatan dan penskalaan Exercise 9: Pemusatan dan penskalaan untuk regresi Exercise 10: Pemusatan dan penskalaan untuk klasifikasi Exercise 11: Mengevaluasi beberapa model Exercise 12: Memvisualisasikan kinerja model regresi Exercise 13: Memprediksi pada himpunan uji Exercise 14: Memvisualisasikan kinerja model klasifikasi Exercise 15: Pipeline untuk memprediksi popularitas lagu Exercise 16: Selamat