Regression mit kategorialen Merkmalen

Nachdem du eben mithilfe von music_dummies das Genre aller Songs binär codiert hast, erstellst du in dieser Übung ein Modell für die Ridge-Regression, um die Popularität der Songs vorherzusagen.

music_dummies wurde bereits geladen, ebenso wie Ridge, cross_val_score, numpy als np sowie ein als kf gespeichertes KFold-Objekt.

Das Modell wird durch die Berechnung des durchschnittlichen RMSE-Wertes evaluiert. Dazu musst du zuerst die Werte für alle Teilmengen in positive Zahlen umwandeln und dann jeweils die Wurzel ziehen. Die so berechnete Kennzahl gibt den durchschnittlichen Fehler der Vorhersagen des Modells an und kann mit der Standardabweichung des Zielwerts ("popularity") verglichen werden.

Diese Übung ist Teil des Kurses

<Kurs>Überwachtes Lernen mit scikit-learn</Kurs>

Übungsanweisungen

Erstelle X anhand aller Merkmale in music_dummies sowie y anhand der Spalte "popularity".
Instanziiere ein Modell für die Ridge-Regression und setze alpha auf 0.2.
Führe eine Kreuzvalidierung für X und y durch. Verwende dabei das Ridge-Modell, setze cv gleich kf und nutze den negativen mittleren quadratischen Fehler zur Bewertung.
Gib die RMSE-Werte aus, indem du zunächst negative scores-Werte in positive Werte umwandelst und dann die Quadratwurzel ziehst.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create X and y
X = ____
y = ____

# Instantiate a ridge model
ridge = ____

# Perform cross-validation
scores = ____(____, ____, ____, cv=____, scoring="____")

# Calculate RMSE
rmse = np.____(____)
print("Average RMSE: {}".format(np.mean(rmse)))
print("Standard Deviation of the target array: {}".format(np.std(y)))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Überwachtes Lernen mit scikit-learn</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel werden Klassifikationsprobleme vorgestellt und du erfährst, wie du sie mit Techniken des überwachten Lernens lösen kannst. Du lernst, wie du Daten in Trainings- und Testmengen aufteilst, ein Modell anpasst, Vorhersagen erstellst und die Genauigkeit auswertest. Du entdeckst den Zusammenhang zwischen der Komplexität und Leistung von Modellen und wendest das Gelernte auf einen Beispieldatensatz an, um die mögliche Abwanderung von Kunden eines Telekommunikationsunternehmens vorherzusagen.

Exercise 1: Maschinelles Lernen mit scikit-learn Exercise 2: Binäre Klassifikation Exercise 3: Arbeitsablauf beim überwachten Lernen Exercise 4: Klassifikationsbeispiel Exercise 5: Nächste-Nachbarn-Klassifikation: Anpassung Exercise 6: Nächste-Nachbarn-Klassifikation: Vorhersage Exercise 7: Messung der Modellleistung Exercise 8: Zerlegung in Trainings-/Testdaten und Berechnung der Korrektklassifikationsrate Exercise 9: Überanpassung und Unteranpassung Exercise 10: Visualisierung der Modellkomplexität

In diesem Kapitel lernst du die Vorgehensweise bei der Regression kennen und erstellst Modelle zur Vorhersage von Umsätzen anhand eines Datensatzes zu Werbeausgaben. Dabei wendest du die lineare Regression an und nutzt gängige Leistungskennzahlen wie das Bestimmtheitsmaß und den RMSE-Wert. Außerdem führst du eine k-fache Kreuzvalidierung durch und regularisierst Regressionsmodelle, um das Risiko einer Überanpassung zu verringern.

Exercise 1: Einführung in die Regression Exercise 2: Erstellung von Merkmalen Exercise 3: Nutzung eines Modells für die lineare Regression Exercise 4: Visualisierung des Modells für die lineare Regression Exercise 5: Grundlagen der linearen Regression Exercise 6: Anpassung und Vorhersagen bei der Regression Exercise 7: Leistung des Modells bei der Regression Exercise 8: Kreuzvalidierung Exercise 9: Kreuzvalidierung und Bestimmtheitsmaß Exercise 10: Analyse von Kennzahlen bei der Kreuzvalidierung Exercise 11: Regularisierte Regression Exercise 12: Regularisierte Regression: Ridge Exercise 13: Lasso-Regression und Wichtigkeit von Merkmalen

Nachdem du verschiedene Modelle trainiert hast, lernst du jetzt, wie du ihre Leistung bewerten kannst. Dazu werden in diesem Kapitel verschiedene Kennzahlen und ein Visualisierungsverfahren vorgestellt, um die Ergebnisse von Klassifikationsmodellen mit scikit-learn auszuwerten. Außerdem geht es um die Optimierung von Hyperparametern, um dadurch die Leistung von Klassifikations- und Regressionsmodellen weiter zu verbessern.

Exercise 1: Wie gut ist dein Modell?Exercise 2: Auswahl einer geeigneten primären Kennzahl Exercise 3: Bewertung eines Klassifikators zur Diabetesvorhersage Exercise 4: Logistische Regression und die ROC-Kurve Exercise 5: Nutzung eines Modells für die logistische Regression Exercise 6: Die ROC-Kurve Exercise 7: ROC AUC Exercise 8: Hyperparameter-Optimierung Exercise 9: Hyperparameter-Optimierung mit GridSearchCV Exercise 10: Hyperparameter-Optimierung mit RandomizedSearchCV

In diesem Kapitel lernst du, wie du fehlende Werte korrigierst, kategoriale Daten in numerische Werte umwandelst, Daten skalierst, mehrere Modelle für überwachtes Lernen gleichzeitig auswertest und Pipelines zur Workflow-Optimierung erstellst.

Exercise 1: Vorverarbeitung von Daten Exercise 2: Erstellung von Dummy-Variablen Exercise 3: Regression mit kategorialen Merkmalen

Aktuelle Übung

Exercise 4: Umgang mit fehlenden Daten Exercise 5: Verwerfen von fehlenden Daten Exercise 6: Pipeline zur Vorhersage von Genres: Teil 1 Exercise 7: Pipeline zur Vorhersage von Genres: Teil 2 Exercise 8: Zentrierung und Skalierung Exercise 9: Zentrierung und Skalierung für die Regression Exercise 10: Zentrierung und Skalierung für die Klassifikation Exercise 11: Evaluierung mehrerer Modelle Exercise 12: Visualisierung der Leistung von Regressionsmodellen Exercise 13: Vorhersagen für die Testdaten Exercise 14: Visualisierung der Leistung von Klassifikationsmodellen Exercise 15: Pipeline zur Vorhersage der Songpopularität Exercise 16: Glückwunsch!