Statistiche della cross-validation

Hai usato la grid search con CV per ottimizzare il tuo classificatore random forest e ora vuoi ispezionare i risultati della cross-validation per assicurarti di non aver fatto overfitting. In particolare, vuoi calcolare la differenza tra la media del punteggio sul test per ciascun fold e la media del punteggio sul training. Il dataset è disponibile come X_train e y_train, la pipeline come pipe, e diversi moduli sono già caricati, inclusi pandas come pd e GridSearchCV().

Questo esercizio fa parte del corso

Progettare workflow di Machine Learning in Python

Visualizza corso

Istruzioni dell'esercizio

Crea un oggetto di grid search con tre fold di cross-validation e assicurati che restituisca sia le statistiche di training sia quelle di test.
Adestra l’oggetto di grid search sui dati di training.
Salva i risultati della cross-validation, disponibili nell’attributo cv_results_ dell’oggetto CV addestrato, in un dataframe.
Stampa la differenza tra la colonna che contiene la media dei punteggi sul test e quella che contiene la media dei punteggi sul training.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Fit your pipeline using GridSearchCV with three folds
grid_search = GridSearchCV(
  pipe, params, ____=3, return_train_score=____)

# Fit the grid search
gs = grid_search.____(____, ____)

# Store the results of CV into a pandas dataframe
results = pd.____(gs.____)

# Print the difference between mean test and training scores
print(
  results[____]-results['mean_train_score'])

Modifica ed esegui il codice

Progettare workflow di Machine Learning in Python

AvançadoNível de habilidade

4.8+

94 reviews

Nei capitoli precedenti hai costruito solide basi nel supervised learning, inclusa la messa in produzione dei modelli, ma hai sempre dato per scontato di avere a disposizione un insieme di dati etichettato per l’analisi. In questo capitolo affronterai la sfida di modellare dati senza etichette o con pochissime etichette. Questo ti porta in un percorso nell’anomaly detection, una forma di modellazione non supervisionata, e nel distance-based learning, dove convinzioni su cosa renda simili due esempi possono sostituire le etichette per aiutarti a raggiungere livelli di accuratezza paragonabili a un workflow supervisionato. Al termine del capitolo, ti distinguerai chiaramente dalla massa dei data scientist grazie alla sicurezza con cui saprai scegliere gli strumenti giusti per adattare il tuo workflow e superare sfide comuni del mondo reale.

Exercise 1: Rilevamento di anomalie Exercise 2: Un semplice outlier Exercise 3: Contaminazione in LoF Exercise 4: Rilevamento di novità Exercise 5: Una semplice novelty Exercise 6: Tre rilevatori di novità Exercise 7: Contamination, di nuovo Exercise 8: Apprendimento basato sulla distanza Exercise 9: Trova il vicino Exercise 10: Non tutte le metriche sono d'accordo Exercise 11: Dati non strutturati Exercise 12: Levenshtein ristretto Exercise 13: Mettere tutto insieme Exercise 14: Considerazioni finali