Pemodelan tanpa normalisasi
Mari kita lihat apa yang bisa terjadi pada akurasi model jika Anda mencoba memodelkan data tanpa melakukan standardisasi terlebih dahulu.
Di sini tersedia subset dari himpunan data wine. Salah satu kolomnya, Proline, memiliki varians yang sangat tinggi dibandingkan kolom lainnya. Ini adalah contoh kasus di mana teknik seperti normalisasi log akan sangat membantu, yang akan Anda pelajari pada bagian selanjutnya.
Proses pelatihan model scikit-learn seharusnya sudah Anda kenal pada tahap ini, jadi kita tidak akan membahasnya terlalu mendalam. Anda sudah memiliki model k-nearest neighbors (knn) serta himpunan X dan y yang diperlukan untuk melakukan fit dan menghitung skornya.
Latihan ini merupakan bagian dari kursus
Prapemrosesan untuk Machine Learning di Python
Instruksi latihan
- Bagi himpunan
Xdanymenjadi himpunan latih dan uji, dengan memastikan label kelas terdistribusi merata pada kedua himpunan. - Lakukan fit model
knnpada fitur dan label pelatihan. - Cetak akurasi himpunan uji dari model
knnmenggunakan metode.score().
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Split the dataset into training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, stratify=____, random_state=42)
knn = KNeighborsClassifier()
# Fit the knn model to the training data
knn.____(____, ____)
# Score the model on the test data
print(knn.____(____))