ComeçarComece de graça

Ajustando n_neighbors

n_neighbors é o parâmetro mais importante de KNN. Quando você não tem certeza sobre a quantidade de outliers no conjunto de dados (o que é comum), não dá para usar a regra prática que sugere usar 20 vizinhos quando a contaminação é inferior a 10%.

Para esses casos, você vai precisar ajustar n_neighbors. Pratique o processo na versão transformada do conjunto de dados females do exercício anterior. Ele foi carregado como females_transformed. O estimador KNN e as funções evaluate_outlier_classifier e evaluate_regressor também estão carregados.

Aqui estão os corpos das funções para relembrar:

def evaluate_outlier_classifier(model, data, threshold=.75):
    model.fit(data)

    probs = model.predict_proba(data)
    inliers = data[probs[:, 1] <= threshold]

    return inliers

def evaluate_regressor(inliers):
    X, y = inliers.drop("weightkg", axis=1), inliers[['weightkg']]
    X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=10, train_size=0.8)

    lr = LinearRegression()
    lr.fit(X_train, y_train)

    preds = lr.predict(X_test)
    rmse = root_mean_squared_error(y_test, preds)

    return round(rmse, 3)

Este exercício faz parte do curso

Detecção de Anomalias em Python

Ver curso

Instruções do exercício

  • Crie uma lista com possíveis valores para n_neighbors nesta ordem: 5, 10, 20
  • Instancie um modelo KNN, definindo n_neighbors como o k atual no loop.
  • Encontre os inliers usando a função evaluate_outlier_classifier.
  • Calcule o RMSE com evaluate_regressor e armazene o resultado em scores, usando k como chave e o RMSE como valor.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a list of values for n_neigbors
n_neighbors = [____, ____, ____]
scores = dict()

for k in n_neighbors:
    # Instantiate KNN with the current k
    knn = ____(____, n_jobs=-1)
    
    # Find the inliers with the current KNN
    inliers = ____(____, ____, .50)
    
    # Calculate and store RMSE into scores
    scores[____] = ____
    
print(scores)
Editar e executar o código