1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Detekce anomálií v Pythonu

Connected

cvičení

Ladění metody agregace

Jakmile najdeš optimální počet sousedů, je čas naladit parametr method, který určuje způsob agregace vzdáleností. Pokud je n_neighbors rovno 10, má každý datový bod deset změřených vzdáleností ke svým nejbližším sousedům. KNN je agreguje třemi způsoby: largest, mean a median.

Zjisti, která metoda funguje nejlépe pro dataset females_transformed. Estimátor KNN a funkce evaluate_outlier_classifier a evaluate_regressor jsou už načteny.

Pro připomenutí – těla funkcí vypadají takto:

def evaluate_outlier_classifier(model, data, threshold=.75):
    model.fit(data)

    probs = model.predict_proba(data)
    inliers = data[probs[:, 1] <= threshold]

    return inliers

def evaluate_regressor(inliers):
    X, y = inliers.drop("weightkg", axis=1), inliers[['weightkg']]
    X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=10, train_size=0.8)

    lr = LinearRegression()
    lr.fit(X_train, y_train)

    preds = lr.predict(X_test)
    rmse = root_mean_squared_error(y_test, preds)

    return round(rmse, 3)

Pokyny

100 XP
  • Projdi kartézský součin n_neighbors a methods ve smyčce a vytvoř instanci KNN s dočasnými proměnnými k a m.
  • Najdi inliery pomocí aktuálního modelu KNN s prahem 50 %.
  • Vypočítej RMSE a ulož výsledek do scores s klíčem k, m a hodnotou RMSE.