Normalleştirmeden modelleme
Önce bir tür standardizasyon yapmadan veri modellemeye çalışırsan, modelinin doğruluğunda neler olabileceğine bakalım.
Burada wine veri kümesinin bir alt kümesi var. Sütunlardan biri olan Proline, diğer sütunlara kıyasla son derece yüksek bir varyansa sahip. Bu, bir sonraki bölümde öğreneceğin log normalizasyonu gibi bir tekniğin işe yarayacağı bir duruma örnek.
scikit-learn model eğitimi süreci bu noktada sana tanıdık olmalı, o yüzden ayrıntılara çok girmeyeceğiz. Elinde zaten bir k-en yakın komşu modeli (knn) ile birlikte, eğitmek ve puanlamak için gereken X ve y setleri bulunuyor.
Bu egzersiz, kursun bir parçasıdır
Python'da Machine Learning için Ön İşleme
Egzersiz talimatları
Xveysetlerini, sınıf etiketlerinin her iki sette de eşit dağıldığından emin olarak eğitim ve test setlerine ayır.knnmodelini eğitim özelliklerine ve etiketlerine uydur..score()yöntemini kullanarakknnmodelinin test kümesi doğruluğunu yazdır.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Split the dataset into training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, stratify=____, random_state=42)
knn = KNeighborsClassifier()
# Fit the knn model to the training data
knn.____(____, ____)
# Score the model on the test data
print(knn.____(____))