Ajustando n_neighbors
n_neighbors é o parâmetro mais importante de KNN. Quando você não tem certeza sobre a quantidade de outliers no conjunto de dados (o que é comum), não dá para usar a regra prática que sugere usar 20 vizinhos quando a contaminação é inferior a 10%.
Para esses casos, você vai precisar ajustar n_neighbors. Pratique o processo na versão transformada do conjunto de dados females do exercício anterior. Ele foi carregado como females_transformed. O estimador KNN e as funções evaluate_outlier_classifier e evaluate_regressor também estão carregados.
Aqui estão os corpos das funções para relembrar:
def evaluate_outlier_classifier(model, data, threshold=.75):
model.fit(data)
probs = model.predict_proba(data)
inliers = data[probs[:, 1] <= threshold]
return inliers
def evaluate_regressor(inliers):
X, y = inliers.drop("weightkg", axis=1), inliers[['weightkg']]
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=10, train_size=0.8)
lr = LinearRegression()
lr.fit(X_train, y_train)
preds = lr.predict(X_test)
rmse = root_mean_squared_error(y_test, preds)
return round(rmse, 3)
Este exercício faz parte do curso
Detecção de Anomalias em Python
Instruções do exercício
- Crie uma lista com possíveis valores para
n_neighborsnesta ordem: 5, 10, 20 - Instancie um modelo
KNN, definindon_neighborscomo okatual no loop. - Encontre os inliers usando a função
evaluate_outlier_classifier. - Calcule o RMSE com
evaluate_regressore armazene o resultado emscores, usandokcomo chave e o RMSE como valor.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a list of values for n_neigbors
n_neighbors = [____, ____, ____]
scores = dict()
for k in n_neighbors:
# Instantiate KNN with the current k
knn = ____(____, n_jobs=-1)
# Find the inliers with the current KNN
inliers = ____(____, ____, .50)
# Calculate and store RMSE into scores
scores[____] = ____
print(scores)