1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wykrywanie anomalii w Pythonie

Connected

ćwiczenie

Strojenie parametru n_neighbors

n_neighbors to najważniejszy parametr klasyfikatora KNN. Gdy nie wiesz, ile obserwacji odstających znajduje się w zbiorze danych – a taka sytuacja zdarza się często – nie możesz korzystać z reguły praktycznej, która sugeruje użycie 20 sąsiadów przy zanieczyszczeniu poniżej 10%.

W takich przypadkach trzeba ręcznie dostroić n_neighbors. Przećwicz ten proces na przekształconej wersji zbioru danych females z poprzedniego ćwiczenia – jest on dostępny jako females_transformed. Estymator KNN, funkcja evaluate_outlier_classifier oraz funkcja evaluate_regressor są już wczytane.

Poniżej znajdziesz treść obu funkcji dla przypomnienia:

def evaluate_outlier_classifier(model, data, threshold=.75):
    model.fit(data)

    probs = model.predict_proba(data)
    inliers = data[probs[:, 1] <= threshold]

    return inliers

def evaluate_regressor(inliers):
    X, y = inliers.drop("weightkg", axis=1), inliers[['weightkg']]
    X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=10, train_size=0.8)

    lr = LinearRegression()
    lr.fit(X_train, y_train)

    preds = lr.predict(X_test)
    rmse = root_mean_squared_error(y_test, preds)

    return round(rmse, 3)

Instrukcje

100 XP
  • Utwórz listę możliwych wartości parametru n_neighbors w następującej kolejności: 5, 10, 20.
  • Utwórz instancję modelu KNN, ustawiając wartość n_neighbors na bieżące k z pętli.
  • Znajdź obserwacje normalne (inliers) za pomocą funkcji evaluate_outlier_classifier.
  • Oblicz RMSE przy użyciu funkcji evaluate_regressor i zapisz wynik w słowniku scores, używając k jako klucza i wartości RMSE jako wartości.