Dati visti vs. dati mai visti

I modelli tendono a essere più accurati sulle osservazioni che hanno già visto. Nel dataset delle caramelle, prevedere la popolarità degli Skittles probabilmente avrà un’accuratezza maggiore rispetto a prevedere la popolarità degli Andes Mints; Skittles è nel dataset, mentre Andes Mints no.

Hai costruito un modello basato su 50 caramelle usando l’insieme di dati X_train e devi riportare quanto è accurato nel prevedere la popolarità delle 50 caramelle su cui è stato addestrato e delle 35 caramelle (X_test) che non ha mai visto. Userai l’errore assoluto medio, mae(), come metrica di accuratezza.

Questo esercizio fa parte del corso

Validazione dei modelli in Python

Visualizza corso

Istruzioni dell'esercizio

Usando X_train e X_test come dati di input, crea array di previsioni con model.predict().
Calcola l’accuratezza del modello sia sui dati che il modello ha visto sia su quelli che non ha mai visto.
Usa le istruzioni di stampa per mostrare i dati visti e quelli mai visti.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# The model is fit using X_train and y_train
model.fit(X_train, y_train)

# Create vectors of predictions
train_predictions = model.predict(____)
test_predictions = model.predict(____)

# Train/Test Errors
train_error = mae(y_true=y_train, y_pred=____)
test_error = mae(y_true=y_test, y_pred=____)

# Print the accuracy for seen and unseen data
print("Model error on seen data: {0:.2f}.".format(____))
print("Model error on unseen data: {0:.2f}.".format(____))

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Validazione dei modelli in Python

IntermediárioNível de habilidade

4.9+

Inizia il corso gratuitamente

Prima di poter validare i modelli, dobbiamo capire come crearli e utilizzarli. Questo capitolo introduce l’esecuzione di modelli di regressione e classificazione in scikit-learn. Useremo queste basi per la costruzione dei modelli in tutti i capitoli successivi.

Exercise 1: Introduzione alla validazione dei modelli Exercise 2: Fasi del modeling Exercise 3: Dati visti vs. dati mai visti

Esercizio attuale

Exercise 4: Modelli di regressione Exercise 5: Imposta i parametri e addestra un modello Exercise 6: Importanza delle feature Exercise 7: Modelli di classificazione Exercise 8: Predizioni di classificazione Exercise 9: Riutilizzare i parametri del modello Exercise 10: Classificatore random forest

Questo capitolo si concentra sulle basi della validazione dei modelli. Dallo split dei dati in insiemi di training, validation e testing, fino a comprendere il compromesso bias-varianza, gettiamo le fondamenta per le tecniche di validazione K-Fold e Leave-One-Out che metteremo in pratica nel capitolo tre.

Exercise 1: Creare insiemi di dati di training, test e validation Exercise 2: Crea un set di holdout Exercise 3: Crea due holdout set Exercise 4: Perché usare gli insiemi di holdout Exercise 5: Metriche di accuratezza: modelli di regressione Exercise 6: Errore assoluto medio Exercise 7: Errore quadratico medio Exercise 8: Prestazioni su sottoinsiemi di dati Exercise 9: Metriche di classificazione Exercise 10: Matrici di confusione Exercise 11: Ancora sulle confusion matrix Exercise 12: Precision vs. recall Exercise 13: Il compromesso bias-varianza Exercise 14: Errore dovuto a under/overfitting Exercise 15: Sto underfittando?

I set di holdout sono un ottimo punto di partenza per la validazione dei modelli. Tuttavia, usare un singolo train e test set spesso non basta. La cross-validation è considerata il gold standard per validare le prestazioni del modello ed è quasi sempre utilizzata quando si ottimizzano gli iperparametri. Questo capitolo è dedicato all’esecuzione della cross-validation per validare le prestazioni del modello.

Exercise 1: I limiti dei set di holdout Exercise 2: Due campioni Exercise 3: Problemi potenziali Exercise 4: Validazione incrociata Exercise 5: `KFold()` di scikit-learn Exercise 6: Utilizzare gli indici di KFold Exercise 7: cross_val_score() di sklearn Exercise 8: Metodi di scikit-learn Exercise 9: Usa cross_val_score()Exercise 10: Leave-one-out cross-validation (LOOCV)Exercise 11: Quando usare LOOCV Exercise 12: Leave-one-out cross-validation

I primi tre capitoli si sono concentrati sulle tecniche di validazione dei modelli. Nel capitolo 4 applichiamo queste tecniche, in particolare la cross-validation, mentre impariamo l’ottimizzazione degli iperparametri. In fin dei conti, la validazione rende possibile l’ottimizzazione e ci aiuta a selezionare il modello complessivo migliore.

Exercise 1: Introduzione all'hyperparameter tuning Exercise 2: Creare gli iperparametri Exercise 3: Eseguire un modello usando intervalli Exercise 4: RandomizedSearchCV Exercise 5: Preparazione a RandomizedSearch Exercise 6: Implementare RandomizedSearchCV Exercise 7: Selezionare il modello finale Exercise 8: Migliore accuratezza di classificazione Exercise 9: Selezionare il modello con la precision migliore Exercise 10: Corso completato!