n_neighbors のチューニング

n_neighbors は KNN で最も重要なパラメータです。データセット中の外れ値の数が不明な場合（よくあります）、汚染率が 10% 未満なら 20 近傍を使うという経験則は使えません。

そのような場合は、n_neighbors をチューニングする必要があります。前の演習で扱った females データセットの変換版で練習しましょう。females_transformed として読み込まれています。KNN 推定器、evaluate_outlier_classifier と evaluate_regressor 関数も読み込まれています。

リマインダーとして関数本体を示します:

def evaluate_outlier_classifier(model, data, threshold=.75):
    model.fit(data)

    probs = model.predict_proba(data)
    inliers = data[probs[:, 1] <= threshold]

    return inliers

def evaluate_regressor(inliers):
    X, y = inliers.drop("weightkg", axis=1), inliers[['weightkg']]
    X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=10, train_size=0.8)

    lr = LinearRegression()
    lr.fit(X_train, y_train)

    preds = lr.predict(X_test)
    rmse = root_mean_squared_error(y_test, preds)

    return round(rmse, 3)

n_neighbors の候補値を、この順序でリストに作成します: 5, 10, 20
ループ内で現在の k を n_neighbors に設定して、KNN モデルをインスタンス化します。
evaluate_outlier_classifier 関数を使ってインライヤーを求めます。
evaluate_regressor で RMSE を計算し、scores に k をキー、RMSE を値として保存します。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習