Den Schwellenwert optimieren

Du hast gehört, dass der Standardwert 0,5 theoretisch die Accuracy maximiert, möchtest aber testen, was in der Praxis passiert. Also probierst du verschiedene Schwellenwerte aus, um zu sehen, welche Accuracy du erhältst, und bestimmst so den am besten performenden Schwellenwert. Dasselbe Experiment wiederholst du für den F1-Score. Ist 0,5 der optimale Schwellenwert? Ist der optimale Schwellenwert für Accuracy und F1-Score derselbe? Finde es heraus! Dir steht eine scores-Matrix zur Verfügung, die aus dem Scoring der Testdaten stammt. Die Ground-Truth-Labels für die Testdaten sind als y_test verfügbar. Außerdem sind zwei numpy-Funktionen vorab geladen: argmin() und argmax(), die jeweils den Index von Minimum und Maximum in einem Array ermitteln, sowie die Metriken accuracy_score() und f1_score().

Diese Übung ist Teil des Kurses

Machine-Learning-Workflows in Python entwerfen

Kurs anzeigen

Anleitung zur Übung

Erstelle einen Bereich von Schwellenwerten, der 0,0; 0,25; 0,5; 0,75 und 1,0 enthält.
Speichere per doppelter List Comprehension die Vorhersagen für jeden Schwellenwert in diesem Bereich. Denk daran: Labels aus einer Scores-Matrix mit einem Schwellenwert thr erhältst du mit [s[1] > thr for s in scores].
Gehe diese Liste durch und berechne für jeden Schwellenwert die Accuracy. Wiederhole das für den F1-Score.
Finde mit argmin() oder argmax() den optimalen Schwellenwert für die Accuracy und für F1.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create a range of equally spaced threshold values
t_range = ____

# Store the predicted labels for each value of the threshold
preds = [[____ > thr for s in scores] for ____ in ____]

# Compute the accuracy for each threshold
accuracies = [____(____, ____) for p in preds]

# Compute the F1 score for each threshold
f1_scores = [____(____, ____) for p in preds]

# Report the optimal threshold for accuracy, and for F1
print(t_range[____(accuracies)], t_range[____(f1_scores)])

Code bearbeiten und ausführen

Machine-Learning-Workflows in Python entwerfen

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

74 reviews

In den vorherigen Kapiteln hast du eine solide Grundlage im überwachten Lernen gelegt, inklusive Wissen zur Bereitstellung von Modellen in der Produktion – dabei bist du jedoch stets von einem gelabelten Datensatz für deine Analyse ausgegangen. In diesem Kapitel stellst du dich der Herausforderung, Daten ganz ohne oder mit sehr wenigen Labels zu modellieren. Das führt dich in Anomaly Detection, eine Art des unüberwachten Modellierens, sowie in Distance-based Learning, bei dem Annahmen darüber, was Ähnlichkeit zwischen zwei Beispielen ausmacht, Labels ersetzen können, um Genauigkeiten zu erreichen, die mit einem überwachten Workflow vergleichbar sind. Nach Abschluss dieses Kapitels hebst du dich klar von der Menge der Data Scientists ab, weil du souverän weißt, welche Tools du einsetzen kannst, um deinen Workflow anzupassen und gängige Praxisprobleme zu lösen.

Exercise 1: Anomalieerkennung Exercise 2: Ein einfacher Ausreißer Exercise 3: LoF-Kontamination Exercise 4: Neuheitenerkennung Exercise 5: Eine einfache Novelty Detection Exercise 6: Drei Novelty-Detectoren Exercise 7: Kontamination, noch einmal Exercise 8: Abstandsbasierte Lernverfahren Exercise 9: Finde den Nachbarn Exercise 10: Nicht alle Metriken sind sich einig Exercise 11: Unstrukturierte Daten Exercise 12: Eingeschränktes Levenshtein Exercise 13: Alles zusammenführen Exercise 14: Abschließende Bemerkungen