Visualisierung der Leistung von Klassifikationsmodellen

In dieser Übung löst du ein Klassifikationsproblem, bei dem die Spalte "popularity" im Datensatz music_df in binäre Werte umgewandelt wurde, wobei 1 für eine Beliebtheit steht, die größer oder gleich dem Median der Spalte "popularity" ist, und 0 für eine Beliebtheit, die unter dem Median liegt.

Deine Aufgabe ist es, die Ergebnisse von drei verschiedenen Modellen zu erstellen und zu visualisieren, um zu klassifizieren, ob ein Lied beliebt ist oder nicht.

Die Daten wurden aufgeteilt, skaliert und für dich als X_train_scaled, X_test_scaled, y_train und y_test vorgeladen. Außerdem wurden KNeighborsClassifier, DecisionTreeClassifier und LogisticRegression importiert.

Diese Übung ist Teil des Kurses

Überwachtes Lernen mit scikit-learn

Anleitung zur Übung

Erstelle ein Dictionary mit "Logistic Regression", "KNN" und "Decision Tree Classifier" und setze die Dictionary-Werte auf einen Aufruf des jeweiligen Modells.
Durchlaufe die Werte in models mit einer Schleife.
Instanziiere ein KFold-Objekt, um 6 Splits durchzuführen, indem du shuffle auf True und random_state auf 12 setzt.
Führe eine Kreuzvalidierung mit dem Modell, den skalierten Trainingsmerkmalen und der Ziel-Trainingsmenge durch und setze cv gleich kf.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Create models dictionary
models = {"____": ____(), "____": ____(), "____": ____()}
results = []

# Loop through the models' values
for model in ____.____():
  
  # Instantiate a KFold object
  kf = ____(n_splits=____, random_state=____, shuffle=____)
  
  # Perform cross-validation
  cv_results = ____(____, ____, ____, cv=____)
  results.append(cv_results)
plt.boxplot(results, labels=models.keys())
plt.show()

Bearbeiten und Ausführen von Code

Diese Übung ist Teil des Kurses

Überwachtes Lernen mit scikit-learn

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel lernst du Klassifikationsprobleme kennen und erfährst, wie du sie mit überwachten Lerntechniken lösen kannst. Du lernst, wie du Daten in Trainings- und Testgruppen aufteilst, ein Modell anpasst, Vorhersagen machst und die Genauigkeit auswertest. Du entdeckst den Zusammenhang zwischen Modellkomplexität und Leistung und wendest das Gelernte auf einen Abwanderungsdatensatz an, in dem du den Abwanderungsstatus der Kunden eines Telekommunikationsunternehmens klassifizierst.

Exercise 1: Maschinelles Lernen mit scikit-learn Exercise 2: Binäre Klassifikation Exercise 3: Der Arbeitsablauf beim überwachten Lernen Exercise 4: Die Herausforderung der Klassifikation Exercise 5: Nächste-Nachbarn-Klassifikation: Anpassung Exercise 6: Nächste-Nachbarn-Klassifikation: Vorhersage Exercise 7: Messung der Modellleistung Exercise 8: Training/Test-Zerlegung und Berechnung der Korrektklassifikationsrate Exercise 9: Überanpassung und Unteranpassung Exercise 10: Modellkomplexität visualisieren

In diesem Kapitel wirst du in die Regression eingeführt und erstellst Modelle zur Vorhersage von Umsatzwerten anhand eines Datensatzes über Werbeausgaben. Du lernst die Mechanismen der linearen Regression und gängige Leistungskennzahlen wie das Bestimmtheitsmaß und die Quadratwurzel des mittleren quadratischen Fehlers kennen. Du führst eine k-fache Kreuzvalidierung durch und wendest die Regularisierung auf Regressionsmodelle an, um das Risiko einer Überanpassung zu verringern.

Exercise 1: Einführung in die Regression Exercise 2: Merkmale erstellen Exercise 3: Aufbau eines linearen Regressionsmodells Exercise 4: Visualisierung eines linearen Regressionsmodells Exercise 5: Die Grundlagen der linearen Regression Exercise 6: Anpassung und Vorhersage für Regression Exercise 7: Leistungsbewertung der Regression Exercise 8: Kreuzvalidierung Exercise 9: Kreuzvalidierung für Bestimmtheitsmaß Exercise 10: Analyse der Metriken der Kreuzvalidierung Exercise 11: Regularisierte Regression Exercise 12: Regularisierte Regression: Ridge Exercise 13: Lasso-Regression für die Bedeutung von Merkmalen

Nachdem du Modelle trainiert hast, lernst du jetzt, wie du sie auswerten kannst. In diesem Kapitel lernst du verschiedene Metriken und eine Visualisierungstechnik kennen, um die Leistung von Klassifikationsmodellen mit scikit-learn zu analysieren. Außerdem lernst du, wie du Klassifikations- und Regressionsmodelle mithilfe von Hyperparameter-Tuning optimierst.

Exercise 1: Wie gut ist dein Modell?Exercise 2: Entscheidung für eine primäre Metrik Exercise 3: Bewertung eines Klassifikators zur Diabetesvorhersage Exercise 4: Logistische Regression und die ROC-Kurve Exercise 5: Aufbau eines logistischen Regressionsmodells Exercise 6: Die ROC-Kurve Exercise 7: ROC AUC Exercise 8: Hyperparameter-Tuning Exercise 9: Hyperparameter-Tuning mit GridSearchCV Exercise 10: Hyperparameter-Tuning mit RandomizedSearchCV

Lerne, wie du fehlende Werte ausgleichst, kategoriale Daten in numerische Werte umwandelst, Daten skalierst, mehrere überwachte Lernmodelle gleichzeitig auswertest und Pipelines erstellst, um deinen Workflow zu optimieren!

Exercise 1: Daten vorverarbeiten Exercise 2: Dummy-Variablen erstellen Exercise 3: Regression mit kategorialen Merkmalen Exercise 4: Umgang mit fehlenden Daten Exercise 5: Verwerfen von fehlenden Daten Exercise 6: Pipeline zur Vorhersage von Songgenres: Teil 1 Exercise 7: Pipeline zur Vorhersage von Songgenres: Teil 2 Exercise 8: Zentrieren und Skalieren Exercise 9: Zentrieren und Skalieren für die Regression Exercise 10: Zentrieren und Skalieren für die Klassifikation Exercise 11: Mehrere Modelle evaluieren Exercise 12: Visualisierung der Leistung von Regressionsmodellen Exercise 13: Vorhersage für die Testmenge Exercise 14: Visualisierung der Leistung von Klassifikationsmodellen

Aktuelle Übung

Exercise 15: Pipeline zur Vorhersage der Songpopularität Exercise 16: Glückwunsch!