Menyetel metode agregasi
Setelah jumlah tetangga optimal ditemukan, saatnya menyetel method pengagregasian jarak. Jika n_neighbors bernilai 10, setiap titik data akan memiliki sepuluh pengukuran jarak ke tetangga terdekatnya. KNN menggunakan tiga metode untuk mengagregasikan jarak-jarak tersebut: largest, mean, dan median.
Cari tahu mana yang terbaik untuk himpunan data females_transformed. Estimator KNN, serta fungsi evaluate_outlier_classifier dan evaluate_regressor sudah dimuat untuk Anda.
Berikut isi fungsi tersebut sebagai pengingat:
def evaluate_outlier_classifier(model, data, threshold=.75):
model.fit(data)
probs = model.predict_proba(data)
inliers = data[probs[:, 1] <= threshold]
return inliers
def evaluate_regressor(inliers):
X, y = inliers.drop("weightkg", axis=1), inliers[['weightkg']]
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=10, train_size=0.8)
lr = LinearRegression()
lr.fit(X_train, y_train)
preds = lr.predict(X_test)
rmse = root_mean_squared_error(y_test, preds)
return round(rmse, 3)
Latihan ini adalah bagian dari kursus
Deteksi Anomali dengan Python
Petunjuk latihan
- Lakukan perulangan atas produk kartesius
n_neighborsdanmethods, lalu instansiasikanKNNdengan variabel sementarakdanm. - Temukan inlier dengan
KNNsaat ini dan ambang 50%. - Hitung RMSE dan simpan hasilnya ke dalam
scoresdengank,msebagai kunci dan RMSE sebagai nilainya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
n_neighbors = [5, 20]
methods = ['largest', 'mean', 'median']
scores = dict()
for k, m in ____:
# Create a KNN instance
knn = KNN(____, ____, n_jobs=-1)
# Find the inliers with the current KNN
inliers = ____
# Calculate and store RMSE into scores
scores[(k, m)] = ____
print(scores)