Ajuster la méthode d’agrégation

Une fois le nombre optimal de voisins déterminé, il est temps d’ajuster la method d’agrégation des distances. Si n_neighbors vaut 10, chaque point de données aura dix mesures de distance vers ses plus proches voisins. KNN utilise trois méthodes pour agréger ces distances : largest, mean et median.

Déterminez laquelle est la meilleure pour le jeu de données females_transformed. L’estimateur KNN, ainsi que les fonctions evaluate_outlier_classifier et evaluate_regressor, sont déjà chargés.

Voici le rappel des corps de fonctions :

def evaluate_outlier_classifier(model, data, threshold=.75):
    model.fit(data)

    probs = model.predict_proba(data)
    inliers = data[probs[:, 1] <= threshold]

    return inliers

def evaluate_regressor(inliers):
    X, y = inliers.drop("weightkg", axis=1), inliers[['weightkg']]
    X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=10, train_size=0.8)

    lr = LinearRegression()
    lr.fit(X_train, y_train)

    preds = lr.predict(X_test)
    rmse = root_mean_squared_error(y_test, preds)

    return round(rmse, 3)

Cet exercice fait partie du cours

<cours>Détection d’anomalies en Python</cours>

Voir le cours

Instructions de l’exercice

Itérez sur le produit cartésien de n_neighbors et methods et instanciez KNN avec les variables temporaires k et m.
Trouvez les valeurs aberrantes internes (inliers) avec le KNN courant et un seuil de 50 %.
Calculez la RMSE et stockez le résultat dans scores avec k, m comme clé et la RMSE comme valeur.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

n_neighbors = [5, 20]
methods = ['largest', 'mean', 'median']
scores = dict()

for k, m in ____:
    # Create a KNN instance
    knn = KNN(____, ____, n_jobs=-1)
    
    # Find the inliers with the current KNN
    inliers = ____

    # Calculate and store RMSE into scores
    scores[(k, m)] = ____
    
print(scores)

Modifier et exécuter le code