Normalleştirmeden modelleme

Önce bir tür standardizasyon yapmadan veri modellemeye çalışırsan, modelinin doğruluğunda neler olabileceğine bakalım.

Burada wine veri kümesinin bir alt kümesi var. Sütunlardan biri olan Proline, diğer sütunlara kıyasla son derece yüksek bir varyansa sahip. Bu, bir sonraki bölümde öğreneceğin log normalizasyonu gibi bir tekniğin işe yarayacağı bir duruma örnek.

scikit-learn model eğitimi süreci bu noktada sana tanıdık olmalı, o yüzden ayrıntılara çok girmeyeceğiz. Elinde zaten bir k-en yakın komşu modeli (knn) ile birlikte, eğitmek ve puanlamak için gereken X ve y setleri bulunuyor.

Bu egzersiz, kursun bir parçasıdır

Python'da Machine Learning için Ön İşleme

Kursa Göz Atın

Egzersiz talimatları

X ve y setlerini, sınıf etiketlerinin her iki sette de eşit dağıldığından emin olarak eğitim ve test setlerine ayır.
knn modelini eğitim özelliklerine ve etiketlerine uydur.
.score() yöntemini kullanarak knn modelinin test kümesi doğruluğunu yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Split the dataset into training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, stratify=____, random_state=42)

knn = KNeighborsClassifier()

# Fit the knn model to the training data
knn.____(____, ____)

# Score the model on the test data
print(knn.____(____))

Kodu Düzenle ve Çalıştır