Pemodelan tanpa normalisasi
Mari kita lihat apa yang bisa terjadi pada akurasi model jika Anda mencoba memodelkan data tanpa melakukan standardisasi terlebih dahulu.
Di sini tersedia subset dari himpunan data wine. Salah satu kolomnya, Proline, memiliki varians yang sangat tinggi dibandingkan kolom lainnya. Ini adalah contoh kasus di mana teknik seperti normalisasi log akan sangat membantu, yang akan Anda pelajari pada bagian selanjutnya.
Proses pelatihan model scikit-learn seharusnya sudah Anda kenal pada tahap ini, jadi kita tidak akan membahasnya terlalu mendalam. Anda sudah memiliki model k-nearest neighbors (knn) serta himpunan X dan y yang diperlukan untuk melakukan fit dan menghitung skornya.
Latihan ini adalah bagian dari kursus
Prapemrosesan untuk Machine Learning di Python
Petunjuk latihan
- Bagi himpunan
Xdanymenjadi himpunan latih dan uji, dengan memastikan label kelas terdistribusi merata pada kedua himpunan. - Lakukan fit model
knnpada fitur dan label pelatihan. - Cetak akurasi himpunan uji dari model
knnmenggunakan metode.score().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Split the dataset into training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, stratify=____, random_state=42)
knn = KNeighborsClassifier()
# Fit the knn model to the training data
knn.____(____, ____)
# Score the model on the test data
print(knn.____(____))