Ottimizzare il metodo di aggregazione

Una volta trovato il numero ottimale di vicini, è il momento di mettere a punto il method di aggregazione delle distanze. Se n_neighbors è 10, ogni punto dati avrà dieci misurazioni di distanza dai suoi vicini più prossimi. KNN usa tre metodi per aggregare queste distanze: largest, mean e median.

Scopri qual è il migliore per il dataset females_transformed. L'estimatore KNN e le funzioni evaluate_outlier_classifier ed evaluate_regressor sono già caricate per te.

Qui sotto trovi i corpi delle funzioni come promemoria:

def evaluate_outlier_classifier(model, data, threshold=.75):
    model.fit(data)

    probs = model.predict_proba(data)
    inliers = data[probs[:, 1] <= threshold]

    return inliers

def evaluate_regressor(inliers):
    X, y = inliers.drop("weightkg", axis=1), inliers[['weightkg']]
    X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=10, train_size=0.8)

    lr = LinearRegression()
    lr.fit(X_train, y_train)

    preds = lr.predict(X_test)
    rmse = root_mean_squared_error(y_test, preds)

    return round(rmse, 3)

Questo esercizio fa parte del corso

Rilevamento delle anomalie in Python

Visualizza corso

Istruzioni dell'esercizio

Fai un ciclo sul prodotto di n_neighbors e methods e istanzia KNN con le variabili temporanee k e m.
Trova gli inlier con l'attuale KNN e una soglia del 50%.
Calcola l'RMSE e salva il risultato in scores usando k, m come chiave e l'RMSE come valore.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

n_neighbors = [5, 20]
methods = ['largest', 'mean', 'median']
scores = dict()

for k, m in ____:
    # Create a KNN instance
    knn = KNN(____, ____, n_jobs=-1)
    
    # Find the inliers with the current KNN
    inliers = ____

    # Calculate and store RMSE into scores
    scores[(k, m)] = ____
    
print(scores)

Modifica ed esegui il codice