Gesehene vs. ungesehene Daten

Modelle haben tendenziell eine höhere Genauigkeit bei Beobachtungen, die sie schon gesehen haben. Im Candy-Datensatz wird die Vorhersage der Beliebtheit von Skittles wahrscheinlich genauer sein als die von Andes Mints; Skittles ist im Datensatz enthalten, Andes Mints nicht.

Du hast ein Modell auf Basis von 50 Süßigkeiten mit dem Datensatz X_train gebaut und musst berichten, wie genau das Modell die Beliebtheit der 50 Süßigkeiten vorhersagt, auf denen es trainiert wurde, sowie der 35 Süßigkeiten (X_test), die es noch nie gesehen hat. Du verwendest den mittleren absoluten Fehler, mae(), als Genauigkeitsmetrik.

Diese Übung ist Teil des Kurses

<Kurs>Modellvalidierung in Python</Kurs>

Übungsanweisungen

Erstelle mit X_train und X_test als Eingabedaten Arrays von Vorhersagen mit model.predict().
Berechne die Modellgenauigkeit sowohl auf Daten, die das Modell gesehen hat, als auch auf Daten, die es noch nicht gesehen hat.
Verwende die print-Anweisungen, um die Ergebnisse für gesehene und ungesehene Daten auszugeben.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# The model is fit using X_train and y_train
model.fit(X_train, y_train)

# Create vectors of predictions
train_predictions = model.predict(____)
test_predictions = model.predict(____)

# Train/Test Errors
train_error = mae(y_true=y_train, y_pred=____)
test_error = mae(y_true=y_test, y_pred=____)

# Print the accuracy for seen and unseen data
print("Model error on seen data: {0:.2f}.".format(____))
print("Model error on unseen data: {0:.2f}.".format(____))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Modellvalidierung in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Before we can validate models, we need an understanding of how to create and work with them. This chapter provides an introduction to running regression and classification models in scikit-learn. We will use this model building foundation throughout the remaining chapters.

Exercise 1: Einführung in die Modellvalidierung Exercise 2: Modellierungsschritte Exercise 3: Gesehene vs. ungesehene Daten

Aktuelle Übung

Exercise 4: Regressionsmodelle Exercise 5: Parameter setzen und ein Modell fitten Exercise 6: Feature-Importances Exercise 7: Klassifikationsmodelle Exercise 8: Klassifikationsvorhersagen Exercise 9: Modellparameter wiederverwenden Exercise 10: Random-Forest-Klassifikator

This chapter focuses on the basics of model validation. From splitting data into training, validation, and testing datasets, to creating an understanding of the bias-variance tradeoff, we build the foundation for the techniques of K-Fold and Leave-One-Out validation practiced in chapter three.

Exercise 1: Creating train, test, and validation datasets Exercise 2: Create one holdout set Exercise 3: Create two holdout sets Exercise 4: Why use holdout sets Exercise 5: Accuracy metrics: regression models Exercise 6: Mean absolute error Exercise 7: Mean squared error Exercise 8: Performance on data subsets Exercise 9: Classification metrics Exercise 10: Confusion matrices Exercise 11: Confusion matrices, again Exercise 12: Precision vs. recall Exercise 13: The bias-variance tradeoff Exercise 14: Error due to under/over-fitting Exercise 15: Am I underfitting?

Holdout sets are a great start to model validation. However, using a single train and test set if often not enough. Cross-validation is considered the gold standard when it comes to validating model performance and is almost always used when tuning model hyper-parameters. This chapter focuses on performing cross-validation to validate model performance.

Exercise 1: The problems with holdout sets Exercise 2: Two samples Exercise 3: Potential problems Exercise 4: Cross-validation Exercise 5: scikit-learn's KFold()Exercise 6: Using KFold indices Exercise 7: sklearn's cross_val_score()Exercise 8: scikit-learn's methods Exercise 9: Implement cross_val_score()Exercise 10: Leave-one-out-cross-validation (LOOCV)Exercise 11: When to use LOOCV Exercise 12: Leave-one-out-cross-validation

The first three chapters focused on model validation techniques. In chapter 4 we apply these techniques, specifically cross-validation, while learning about hyperparameter tuning. After all, model validation makes tuning possible and helps us select the overall best model.

Exercise 1: Introduction to hyperparameter tuning Exercise 2: Creating Hyperparameters Exercise 3: Running a model using ranges Exercise 4: RandomizedSearchCV Exercise 5: Preparing for RandomizedSearch Exercise 6: Implementing RandomizedSearchCV Exercise 7: Selecting your final model Exercise 8: Best classification accuracy Exercise 9: Selecting the best precision model Exercise 10: Course completed!