Cross-Validation-Statistiken

Du hast Grid-Search-CV verwendet, um deinen Random-Forest-Klassifikator zu tunen, und möchtest nun die Cross-Validation-Ergebnisse prüfen, um sicherzugehen, dass du nicht überfitten hast. Konkret möchtest du für jeden Fold die Differenz zwischen dem mittleren Test-Score und dem mittleren Trainings-Score berechnen. Der Datensatz liegt als X_train und y_train vor, die Pipeline als pipe, und mehrere Module sind bereits geladen, darunter pandas als pd und GridSearchCV().

Diese Übung ist Teil des Kurses

Machine-Learning-Workflows in Python entwerfen

Kurs anzeigen

Anleitung zur Übung

Erzeuge ein Grid-Search-Objekt mit drei Cross-Validation-Folds und stelle sicher, dass es sowohl Trainings- als auch Teststatistiken zurückgibt.
Fitte das Grid-Search-Objekt auf die Trainingsdaten.
Speichere die Ergebnisse der Cross-Validation, verfügbar im Attribut cv_results_ des trainierten CV-Objekts, in einem DataFrame.
Gib die Differenz zwischen der Spalte mit dem durchschnittlichen Test-Score und der mit dem durchschnittlichen Trainings-Score aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Fit your pipeline using GridSearchCV with three folds
grid_search = GridSearchCV(
  pipe, params, ____=3, return_train_score=____)

# Fit the grid search
gs = grid_search.____(____, ____)

# Store the results of CV into a pandas dataframe
results = pd.____(gs.____)

# Print the difference between mean test and training scores
print(
  results[____]-results['mean_train_score'])

Code bearbeiten und ausführen

Machine-Learning-Workflows in Python entwerfen

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

74 reviews

In den vorherigen Kapiteln hast du eine solide Grundlage im überwachten Lernen gelegt, inklusive Wissen zur Bereitstellung von Modellen in der Produktion – dabei bist du jedoch stets von einem gelabelten Datensatz für deine Analyse ausgegangen. In diesem Kapitel stellst du dich der Herausforderung, Daten ganz ohne oder mit sehr wenigen Labels zu modellieren. Das führt dich in Anomaly Detection, eine Art des unüberwachten Modellierens, sowie in Distance-based Learning, bei dem Annahmen darüber, was Ähnlichkeit zwischen zwei Beispielen ausmacht, Labels ersetzen können, um Genauigkeiten zu erreichen, die mit einem überwachten Workflow vergleichbar sind. Nach Abschluss dieses Kapitels hebst du dich klar von der Menge der Data Scientists ab, weil du souverän weißt, welche Tools du einsetzen kannst, um deinen Workflow anzupassen und gängige Praxisprobleme zu lösen.

Exercise 1: Anomalieerkennung Exercise 2: Ein einfacher Ausreißer Exercise 3: LoF-Kontamination Exercise 4: Neuheitenerkennung Exercise 5: Eine einfache Novelty Detection Exercise 6: Drei Novelty-Detectoren Exercise 7: Kontamination, noch einmal Exercise 8: Abstandsbasierte Lernverfahren Exercise 9: Finde den Nachbarn Exercise 10: Nicht alle Metriken sind sich einig Exercise 11: Unstrukturierte Daten Exercise 12: Eingeschränktes Levenshtein Exercise 13: Alles zusammenführen Exercise 14: Abschließende Bemerkungen