1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 이상치 탐지

Connected

연습 문제

n_neighbors 튜닝하기

n_neighbors는 KNN에서 가장 중요한 매개변수예요. 데이터셋의 이상치 개수를 확신할 수 없을 때(자주 발생합니다), 오염도(contamination)가 10% 미만이면 이웃 20개를 쓰라는 경험칙을 적용할 수 없어요.

이런 경우에는 n_neighbors를 튜닝해야 해요. 이전 연습 문제에서 사용한 females 데이터셋의 변환 버전으로 과정을 연습해 보세요. 이미 females_transformed로 로드되어 있어요. KNN 추정기와 evaluate_outlier_classifier, evaluate_regressor 함수도 로드되어 있어요.

참고용으로 함수 본문은 다음과 같아요:

def evaluate_outlier_classifier(model, data, threshold=.75):
    model.fit(data)

    probs = model.predict_proba(data)
    inliers = data[probs[:, 1] <= threshold]

    return inliers

def evaluate_regressor(inliers):
    X, y = inliers.drop("weightkg", axis=1), inliers[['weightkg']]
    X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=10, train_size=0.8)

    lr = LinearRegression()
    lr.fit(X_train, y_train)

    preds = lr.predict(X_test)
    rmse = root_mean_squared_error(y_test, preds)

    return round(rmse, 3)

지침

100 XP
  • 가능한 n_neighbors 값 목록을 이 순서로 만드세요: 5, 10, 20
  • 루프에서 현재 k 값을 n_neighbors로 설정해 KNN 모델을 인스턴스화하세요.
  • evaluate_outlier_classifier 함수를 사용해 정상치를 찾으세요.
  • evaluate_regressor로 RMSE를 계산하고, k를 키로, RMSE를 값으로 하여 scores에 저장하세요.