Membangun pengklasifikasi diabetes

Anda akan menggunakan himpunan data diabetes Pima Indians untuk memprediksi apakah seseorang mengidap diabetes dengan logistic regression. Terdapat 8 fitur dan satu target dalam himpunan data ini. Data telah dipisahkan menjadi himpunan pelatihan dan uji serta sudah dimuat untuk Anda sebagai X_train, y_train, X_test, dan y_test.

Sebuah instance StandardScaler() telah didefinisikan sebelumnya sebagai scaler dan LogisticRegression() sebagai lr.

Latihan ini merupakan bagian dari kursus

Pengurangan Dimensi dengan Python

Instruksi latihan

Fit penstandar skala pada fitur pelatihan dan transformasikan fitur tersebut sekaligus.
Fit model logistic regression pada data pelatihan yang telah diskalakan.
Skalasikan fitur uji.
Prediksi keberadaan diabetes pada himpunan uji yang telah diskalakan.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Fit the scaler on the training features and transform these in one go
X_train_std = scaler.____(____)

# Fit the logistic regression model on the scaled training data
lr.____(____, ____)

# Scale the test features
X_test_std = scaler.____(____)

# Predict diabetes presence on the scaled test set
y_pred = lr.____(____)

# Prints accuracy metrics and feature coefficients
print(f"{accuracy_score(y_test, y_pred):.1%} accuracy on test set.")
print(dict(zip(X.columns, abs(lr.coef_[0]).round(2))))

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pengurangan Dimensi dengan Python

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Anda akan diperkenalkan pada konsep pengurangan dimensi dan mempelajari kapan serta mengapa hal ini penting. Anda akan mempelajari perbedaan antara seleksi fitur dan ekstraksi fitur serta menerapkan kedua teknik tersebut untuk penjelajahan data. Bab ini diakhiri dengan pelajaran tentang t-SNE, sebuah teknik ekstraksi fitur yang kuat yang memungkinkan Anda memvisualisasikan himpunan data berdimensi tinggi.

Exercise 1: Pendahuluan Exercise 2: Menemukan jumlah dimensi dalam sebuah himpunan data Exercise 3: Menghapus fitur tanpa varians Exercise 4: Seleksi fitur vs. ekstraksi fitur Exercise 5: Mendeteksi fitur redundan secara visual Exercise 6: Keunggulan feature selection Exercise 7: Visualisasi t-SNE untuk data berdimensi tinggi Exercise 8: Intuisi t-SNE Exercise 9: Menerapkan t-SNE pada data ANSUR Exercise 10: Visualisasi t-SNE atas dimensi

Dalam bab pertama dari dua bab tentang seleksi fitur ini, Anda akan mempelajari tentang kutukan dimensi dan bagaimana pengurangan dimensi dapat membantu Anda mengatasinya. Anda akan diperkenalkan pada sejumlah teknik untuk mendeteksi dan menghapus fitur yang memberi nilai tambah kecil pada himpunan data. Baik karena variansnya kecil, terlalu banyak nilai hilang, atau karena sangat berkorelasi dengan fitur lain.

Exercise 1: Kutukan Dimensionalitas Exercise 2: Train - test split Exercise 3: Melatih dan menguji model Exercise 4: Akurasi setelah reduksi dimensi Exercise 5: Fitur dengan nilai hilang atau varians kecil Exercise 6: Menentukan ambang varians yang tepat Exercise 7: Fitur dengan varians rendah Exercise 8: Menghapus fitur dengan banyak nilai hilang Exercise 9: Korelasi berpasangan Exercise 10: Intuisi korelasi Exercise 11: Memeriksa matriks korelasi Exercise 12: Memvisualisasikan matriks korelasi Exercise 13: Menghapus fitur yang sangat berkorelasi Exercise 14: Menyaring fitur yang sangat berkorelasi Exercise 15: Energi nuklir dan tenggelam di kolam renang

Dalam bab kedua tentang seleksi fitur, Anda akan mempelajari bagaimana memanfaatkan model untuk membantu menemukan fitur paling penting dalam sebuah himpunan data untuk memprediksi fitur target tertentu. Pada pelajaran terakhir bab ini, Anda akan menggabungkan saran dari beberapa model yang berbeda untuk memutuskan fitur mana yang layak dipertahankan.

Exercise 1: Memilih fitur untuk kinerja model Exercise 2: Membangun pengklasifikasi diabetes

Latihan Saat Ini

Exercise 3: Eliminasi Fitur Rekursif Secara Manual Exercise 4: Eliminasi Fitur Rekursif Otomatis Exercise 5: Seleksi fitur berbasis pohon Exercise 6: Membangun model random forest Exercise 7: Random forest untuk seleksi fitur Exercise 8: Eliminasi Fitur Rekursif dengan random forests Exercise 9: Regresi linear teratur Exercise 10: Membuat regressor LASSO Exercise 11: Hasil model Lasso Exercise 12: Menyesuaikan kekuatan regularisasi Exercise 13: Mengombinasikan pemilih fitur Exercise 14: Membuat regressor LassoCV Exercise 15: Model ensemble untuk suara tambahan Exercise 16: Menggabungkan 3 pemilih fitur

Bab ini membahas secara mendalam algoritma pengurangan dimensi yang paling sering digunakan, Principal Component Analysis (PCA). Anda akan membangun intuisi tentang bagaimana dan mengapa algoritma ini begitu kuat dan akan menerapkannya baik untuk penjelajahan data maupun pra-pemrosesan data dalam sebuah pipeline pemodelan. Anda akan menutupnya dengan studi kasus kompresi gambar yang menarik.

Exercise 1: Ekstraksi fitur Exercise 2: Ekstraksi fitur manual I Exercise 3: Ekstraksi fitur manual II Exercise 4: Intuisi komponen utama Exercise 5: Analisis komponen utama Exercise 6: Menghitung Komponen Utama Exercise 7: PCA pada himpunan data yang lebih besar Exercise 8: Varians yang dijelaskan PCA Exercise 9: Aplikasi PCA Exercise 10: Memahami komponen Exercise 11: PCA untuk eksplorasi fitur Exercise 12: PCA dalam pipeline model Exercise 13: Pemilihan Principal Component Exercise 14: Memilih proporsi varians yang dipertahankan Exercise 15: Memilih jumlah komponen Exercise 16: PCA untuk kompresi gambar Exercise 17: Selamat!