Normalleştirmeden modelleme
Önce bir tür standardizasyon yapmadan veri modellemeye çalışırsan, modelinin doğruluğunda neler olabileceğine bakalım.
Burada wine veri kümesinin bir alt kümesi var. Sütunlardan biri olan Proline, diğer sütunlara kıyasla son derece yüksek bir varyansa sahip. Bu, bir sonraki bölümde öğreneceğin log normalizasyonu gibi bir tekniğin işe yarayacağı bir duruma örnek.
scikit-learn model eğitimi süreci bu noktada sana tanıdık olmalı, o yüzden ayrıntılara çok girmeyeceğiz. Elinde zaten bir k-en yakın komşu modeli (knn) ile birlikte, eğitmek ve puanlamak için gereken X ve y setleri bulunuyor.
Bu egzersiz
Python'da Machine Learning için Ön İşleme
kursunun bir parçasıdırEgzersiz talimatları
Xveysetlerini, sınıf etiketlerinin her iki sette de eşit dağıldığından emin olarak eğitim ve test setlerine ayır.knnmodelini eğitim özelliklerine ve etiketlerine uydur..score()yöntemini kullanarakknnmodelinin test kümesi doğruluğunu yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Split the dataset into training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, stratify=____, random_state=42)
knn = KNeighborsClassifier()
# Fit the knn model to the training data
knn.____(____, ____)
# Score the model on the test data
print(knn.____(____))