1. Learn
  2. /
  3. Courses
  4. /
  5. Anomaly Detection in Python

Connected

Exercise

集約方法のチューニング

最適な近傍数が見つかったら、次は距離の集約methodをチューニングします。n_neighbors が 10 の場合、各データポイントには最も近い近傍への距離が10個あります。KNN ではそれらの距離を集約する方法として、largest、mean、median の3種類があります。

females_transformed データセットでどれが最適かを確かめましょう。KNN 推定器、evaluate_outlier_classifier 関数、evaluate_regressor 関数は読み込まれています。

思い出し用に、関数本体を以下に示します。

def evaluate_outlier_classifier(model, data, threshold=.75):
    model.fit(data)

    probs = model.predict_proba(data)
    inliers = data[probs[:, 1] <= threshold]

    return inliers

def evaluate_regressor(inliers):
    X, y = inliers.drop("weightkg", axis=1), inliers[['weightkg']]
    X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=10, train_size=0.8)

    lr = LinearRegression()
    lr.fit(X_train, y_train)

    preds = lr.predict(X_test)
    rmse = root_mean_squared_error(y_test, preds)

    return round(rmse, 3)

Instructions

100 XP
  • n_neighbors と methods の直積をループし、k と m の一時変数で KNN をインスタンス化します。
  • 現在の KNN としきい値 50% を使って inlier を見つけます。
  • RMSE を計算し、scores に k, m をキー、RMSE を値として保存します。