Standard-Thresholding

Du möchtest bestätigen, dass der DecisionTreeClassifier() denselben Standard-Schwellenwert für die Klassifikation verwendet wie in der vorherigen Lektion erwähnt, nämlich 0,5. Es erscheint dir merkwürdig, dass alle Klassifikatoren denselben Schwellenwert verwenden. Lass uns das prüfen! Ein trainierter Entscheidungsbaum-Klassifikator clf wurde bereits für dich geladen, ebenso wie die Trainings- und Testdaten mit ihren üblichen Namen: X_train, X_test, y_train und y_test. Du musst die Wahrscheinlichkeiten mit der Methode .predict_proba() aus dem Klassifikator extrahieren.

Diese Übung ist Teil des Kurses

<Kurs>Machine-Learning-Workflows in Python entwerfen</Kurs>

Übungsanweisungen

Erzeuge Scores für die Testbeispiele mit dem vorab geladenen Klassifikator clf.
Extrahiere jetzt Labels aus den Scores. Denk daran: Du hast für jedes Beispiel ein Paar von Scores, nicht nur einen einzelnen, und das zweite Element ist die Wahrscheinlichkeit der positiven Klasse.
Vergib nun Labels für die Testdaten mit der Standardmethode .predict().
Vergleiche schließlich mit den Vorhersagen von zuvor. Sind sie identisch?

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Score the test data using the given classifier
scores = clf.____(____)

# Get labels from the scores using the default threshold
preds = [s[____] > ____ for s in scores]

# Use the predict method to label the test data again
preds_default = clf.____(____)

# Compare the two sets of predictions
____(preds == preds_default)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Machine-Learning-Workflows in Python entwerfen</Kurs>

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel frischen wir die Grundlagen eines Workflows für überwachtes Lernen auf – mit Modellanpassung, Tuning und Auswahl, Feature Engineering und -auswahl sowie Techniken zur Datenaufteilung. Du verstehst, wie diese Schritte im Workflow voneinander abhängen und erkennst, wie sie gemeinsam zu Overfitting beitragen oder dagegen wirken können – dem schlimmsten Feind von Data Scientists. Am Ende des Kapitels bist du sicher im überwachten Lernen und bereit, in den folgenden Kapiteln in fortgeschrittenere Inhalte einzutauchen.

Exercise 1: Pipelines für überwachtes Lernen Exercise 2: Feature Engineering Exercise 3: Deine erste Pipeline Exercise 4: Modellkomplexität und Overfitting Exercise 5: Grid-Search-CV für Modellkomplexität Exercise 6: Anzahl der Bäume und Schätzer Exercise 7: Feature Engineering und Overfitting Exercise 8: Kategorielle Encodings Exercise 9: Feature-Transformationen Exercise 10: Alles zusammenführen

Im vorherigen Kapitel hast du deine Kenntnisse über Standard-Workflows für überwachtes Lernen perfektioniert. In diesem Kapitel untersuchst du kritisch, wie Expertenwissen in überwachtes Lernen einfließt: durch die Wahl der passenden Analyseeinheit, die ggf. Feature Engineering über mehrere Datenquellen erfordert, durch den mitunter unvollkommenen Prozess des Labelns von Beispielen und durch die Festlegung einer Loss-Funktion, die den wahren geschäftlichen Wert von Fehlern deines Machine-Learning-Modells abbildet.

Exercise 1: Datenfusion Exercise 2: Ist die Quelle oder das Ziel schlecht?Exercise 3: Feature Engineering auf gruppierten Daten Exercise 4: Unvollständige Labels Exercise 5: Eine Heuristik in einen Klassifikator verwandeln Exercise 6: Heuristiken kombinieren Exercise 7: Umgang mit Label-Rauschen Exercise 8: Loss-Funktionen Teil I Exercise 9: Erinnerung: Leistungsmetriken Exercise 10: Kostenanalyse in der Praxis Exercise 11: Berechnungen mit der Konfusionsmatrix Exercise 12: Loss Functions Teil II Exercise 13: Standard-Thresholding

Aktuelle Übung

Exercise 14: Den Schwellenwert optimieren Exercise 15: Alles zusammenführen

Im vorherigen Kapitel hast du verschiedene Wege genutzt, Feedback von Expertinnen und Experten in deinen Workflow einzubinden und es so zu bewerten, dass es dem Business Value entspricht. Jetzt übst du die Fähigkeiten, die du brauchst, um dein Modell zu produktisieren und durch iterative Verbesserungen dauerhaft leistungsfähig zu halten. Außerdem lernst du, Dataset Shift zu diagnostizieren und die Auswirkungen einer sich verändernden Umgebung auf die Genauigkeit deines Modells abzumildern.

Exercise 1: Von Workflows zu Pipelines Exercise 2: Deine erste Pipeline – nochmal!Exercise 3: Eigene Scorer in Pipelines Exercise 4: Modellbereitstellung Exercise 5: Pickles Exercise 6: Eigene FunctionTransformer in Pipelines Exercise 7: Iterieren ohne Overfitting Exercise 8: Fordere den Champion heraus Exercise 9: Cross-Validation-Statistiken Exercise 10: Datensatzverschiebung Exercise 11: Fenstergröße abstimmen Exercise 12: Alles zusammenführen

In den vorherigen Kapiteln hast du eine solide Grundlage im überwachten Lernen gelegt, inklusive Wissen zur Bereitstellung von Modellen in der Produktion – dabei bist du jedoch stets von einem gelabelten Datensatz für deine Analyse ausgegangen. In diesem Kapitel stellst du dich der Herausforderung, Daten ganz ohne oder mit sehr wenigen Labels zu modellieren. Das führt dich in Anomaly Detection, eine Art des unüberwachten Modellierens, sowie in Distance-based Learning, bei dem Annahmen darüber, was Ähnlichkeit zwischen zwei Beispielen ausmacht, Labels ersetzen können, um Genauigkeiten zu erreichen, die mit einem überwachten Workflow vergleichbar sind. Nach Abschluss dieses Kapitels hebst du dich klar von der Menge der Data Scientists ab, weil du souverän weißt, welche Tools du einsetzen kannst, um deinen Workflow anzupassen und gängige Praxisprobleme zu lösen.

Exercise 1: Anomalieerkennung Exercise 2: Ein einfacher Ausreißer Exercise 3: LoF-Kontamination Exercise 4: Neuheitenerkennung Exercise 5: Eine einfache Novelty Detection Exercise 6: Drei Novelty-Detectoren Exercise 7: Kontamination, noch einmal Exercise 8: Abstandsbasierte Lernverfahren Exercise 9: Finde den Nachbarn Exercise 10: Nicht alle Metriken sind sich einig Exercise 11: Unstrukturierte Daten Exercise 12: Eingeschränktes Levenshtein Exercise 13: Alles zusammenführen Exercise 14: Abschließende Bemerkungen