n_neighbors ayarlama
n_neighbors, KNN için en kritik parametredir. Veri kümesindeki aykırı değer sayısından emin olmadığında (ki bu sıkça olur), bulaşma oranı %10’un altındaysa 20 komşu kullan önerisini uygulayamazsın.
Bu tür durumlarda n_neighbors değerini ayarlaman gerekir. Bunu, önceki egzersizdeki females veri kümesinin dönüştürülmüş sürümü üzerinde pratik yaparak dene. Veri kümesi females_transformed olarak yüklendi. KNN kestiricisi ile evaluate_outlier_classifier ve evaluate_regressor fonksiyonları da yüklü.
Anımsatıcı olarak fonksiyon gövdeleri aşağıda:
def evaluate_outlier_classifier(model, data, threshold=.75):
model.fit(data)
probs = model.predict_proba(data)
inliers = data[probs[:, 1] <= threshold]
return inliers
def evaluate_regressor(inliers):
X, y = inliers.drop("weightkg", axis=1), inliers[['weightkg']]
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=10, train_size=0.8)
lr = LinearRegression()
lr.fit(X_train, y_train)
preds = lr.predict(X_test)
rmse = root_mean_squared_error(y_test, preds)
return round(rmse, 3)
Bu egzersiz
Python ile Anomali Tespiti
kursunun bir parçasıdırEgzersiz talimatları
n_neighborsiçin olası değerleri şu sırada içeren bir liste oluştur: 5, 10, 20- Döngüdeki güncel
kdeğerinin_neighborsolarak ayarlayarak birKNNmodeli oluştur. evaluate_outlier_classifierfonksiyonunu kullanarak iç değerleri (inliers) bul.evaluate_regressorile RMSE’yi hesapla ve sonucuscoresiçine anahtar olarakk, değer olarak RMSE gelecek şekilde kaydet.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a list of values for n_neigbors
n_neighbors = [____, ____, ____]
scores = dict()
for k in n_neighbors:
# Instantiate KNN with the current k
knn = ____(____, n_jobs=-1)
# Find the inliers with the current KNN
inliers = ____(____, ____, .50)
# Calculate and store RMSE into scores
scores[____] = ____
print(scores)