Gesehene vs. ungesehene Daten
Modelle haben tendenziell eine höhere Genauigkeit bei Beobachtungen, die sie schon gesehen haben. Im Candy-Datensatz wird die Vorhersage der Beliebtheit von Skittles wahrscheinlich genauer sein als die von Andes Mints; Skittles ist im Datensatz enthalten, Andes Mints nicht.
Du hast ein Modell auf Basis von 50 Süßigkeiten mit dem Datensatz X_train gebaut und musst berichten, wie genau das Modell die Beliebtheit der 50 Süßigkeiten vorhersagt, auf denen es trainiert wurde, sowie der 35 Süßigkeiten (X_test), die es noch nie gesehen hat. Du verwendest den mittleren absoluten Fehler, mae(), als Genauigkeitsmetrik.
Diese Übung ist Teil des Kurses
Modellvalidierung in Python
Anleitung zur Übung
- Erstelle mit
X_trainundX_testals Eingabedaten Arrays von Vorhersagen mitmodel.predict(). - Berechne die Modellgenauigkeit sowohl auf Daten, die das Modell gesehen hat, als auch auf Daten, die es noch nicht gesehen hat.
- Verwende die print-Anweisungen, um die Ergebnisse für gesehene und ungesehene Daten auszugeben.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# The model is fit using X_train and y_train
model.fit(X_train, y_train)
# Create vectors of predictions
train_predictions = model.predict(____)
test_predictions = model.predict(____)
# Train/Test Errors
train_error = mae(y_true=y_train, y_pred=____)
test_error = mae(y_true=y_test, y_pred=____)
# Print the accuracy for seen and unseen data
print("Model error on seen data: {0:.2f}.".format(____))
print("Model error on unseen data: {0:.2f}.".format(____))