Die Aggregationsmethode abstimmen

Sobald die optimale Anzahl an Nachbarn gefunden ist, geht es an das Fine-Tuning der Distanz-Aggregations-method. Wenn n_neighbors 10 ist, hat jeder Datenpunkt zehn Distanzmessungen zu seinen nächsten Nachbarn. KNN bietet drei Methoden, um diese Distanzen zu aggregieren: largest, mean und median.

Finde heraus, welche für den Datensatz females_transformed am besten ist. Der KNN-Estimator sowie die Funktionen evaluate_outlier_classifier und evaluate_regressor sind für dich geladen.

Hier zur Erinnerung die Funktionskörper:

def evaluate_outlier_classifier(model, data, threshold=.75):
    model.fit(data)

    probs = model.predict_proba(data)
    inliers = data[probs[:, 1] <= threshold]

    return inliers

def evaluate_regressor(inliers):
    X, y = inliers.drop("weightkg", axis=1), inliers[['weightkg']]
    X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=10, train_size=0.8)

    lr = LinearRegression()
    lr.fit(X_train, y_train)

    preds = lr.predict(X_test)
    rmse = root_mean_squared_error(y_test, preds)

    return round(rmse, 3)

Diese Übung ist Teil des Kurses

<Kurs>Anomalieerkennung mit Python</Kurs>

Kurs ansehen

Übungsanweisungen

Iteriere über das kartesische Produkt von n_neighbors und methods und instanziiere KNN mit den temporären Variablen k und m.
Bestimme die Inlier mit dem aktuellen KNN und einem Schwellenwert von 50 %.
Berechne die RMSE und speichere das Ergebnis in scores mit k, m als Schlüssel und der RMSE als Wert.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

n_neighbors = [5, 20]
methods = ['largest', 'mean', 'median']
scores = dict()

for k, m in ____:
    # Create a KNN instance
    knn = KNN(____, ____, n_jobs=-1)
    
    # Find the inliers with the current KNN
    inliers = ____

    # Calculate and store RMSE into scores
    scores[(k, m)] = ____
    
print(scores)

Code bearbeiten und ausführen