Pemodelan tanpa normalisasi

Mari kita lihat apa yang bisa terjadi pada akurasi model jika Anda mencoba memodelkan data tanpa melakukan standardisasi terlebih dahulu.

Di sini tersedia subset dari himpunan data wine. Salah satu kolomnya, Proline, memiliki varians yang sangat tinggi dibandingkan kolom lainnya. Ini adalah contoh kasus di mana teknik seperti normalisasi log akan sangat membantu, yang akan Anda pelajari pada bagian selanjutnya.

Proses pelatihan model scikit-learn seharusnya sudah Anda kenal pada tahap ini, jadi kita tidak akan membahasnya terlalu mendalam. Anda sudah memiliki model k-nearest neighbors (knn) serta himpunan X dan y yang diperlukan untuk melakukan fit dan menghitung skornya.

Latihan ini merupakan bagian dari kursus

Prapemrosesan untuk Machine Learning di Python

Lihat Kursus

Instruksi latihan

Bagi himpunan X dan y menjadi himpunan latih dan uji, dengan memastikan label kelas terdistribusi merata pada kedua himpunan.
Lakukan fit model knn pada fitur dan label pelatihan.
Cetak akurasi himpunan uji dari model knn menggunakan metode .score().

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Split the dataset into training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, stratify=____, random_state=42)

knn = KNeighborsClassifier()

# Fit the knn model to the training data
knn.____(____, ____)

# Score the model on the test data
print(knn.____(____))

Edit dan Jalankan Kode