Dati visti vs. dati mai visti
I modelli tendono a essere più accurati sulle osservazioni che hanno già visto. Nel dataset delle caramelle, prevedere la popolarità degli Skittles probabilmente avrà un’accuratezza maggiore rispetto a prevedere la popolarità degli Andes Mints; Skittles è nel dataset, mentre Andes Mints no.
Hai costruito un modello basato su 50 caramelle usando l’insieme di dati X_train e devi riportare quanto è accurato nel prevedere la popolarità delle 50 caramelle su cui è stato addestrato e delle 35 caramelle (X_test) che non ha mai visto. Userai l’errore assoluto medio, mae(), come metrica di accuratezza.
Questo esercizio fa parte del corso
Validazione dei modelli in Python
Istruzioni dell'esercizio
- Usando
X_traineX_testcome dati di input, crea array di previsioni conmodel.predict(). - Calcola l’accuratezza del modello sia sui dati che il modello ha visto sia su quelli che non ha mai visto.
- Usa le istruzioni di stampa per mostrare i dati visti e quelli mai visti.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# The model is fit using X_train and y_train
model.fit(X_train, y_train)
# Create vectors of predictions
train_predictions = model.predict(____)
test_predictions = model.predict(____)
# Train/Test Errors
train_error = mae(y_true=y_train, y_pred=____)
test_error = mae(y_true=y_test, y_pred=____)
# Print the accuracy for seen and unseen data
print("Model error on seen data: {0:.2f}.".format(____))
print("Model error on unseen data: {0:.2f}.".format(____))