Nicht alle Metriken sind sich einig

In der vorherigen Übung hast du gesehen, dass sich nicht alle Metriken bei der Bestimmung der nächsten Nachbarn einig sind. Heißt das, dass sie auch bei Ausreißern uneins sein könnten? Das willst du testen. Du verwendest die gleichen Daten wie zuvor, speist sie dieses Mal aber in einen Local-Outlier-Factor-Ausreißer-Detector ein. Das Modul LocalOutlierFactor steht dir als lof zur Verfügung, und die Daten als features.

Diese Übung ist Teil des Kurses

Machine-Learning-Workflows in Python entwerfen

Kurs anzeigen

Anleitung zur Übung

Erkenne Ausreißer in features mit der Metrik euclidean.
Erkenne Ausreißer in features mit der Metrik hamming.
Erkenne Ausreißer in features mit der Metrik jaccard.
Finde heraus, ob alle drei Metriken sich bei irgendeinem Ausreißer einig sind.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Compute outliers according to the euclidean metric
out_eucl = ____(metric='euclidean').fit_predict(features)

# Compute outliers according to the hamming metric
out_hamm = ____(metric=____).fit_predict(features)

# Compute outliers according to the jaccard metric
out_jacc  = ____(____=____).____(features)

# Find if the metrics agree on any one datapoint
print(any(____ + ____ + ____ == ____))

Code bearbeiten und ausführen

Machine-Learning-Workflows in Python entwerfen

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

74 reviews

In den vorherigen Kapiteln hast du eine solide Grundlage im überwachten Lernen gelegt, inklusive Wissen zur Bereitstellung von Modellen in der Produktion – dabei bist du jedoch stets von einem gelabelten Datensatz für deine Analyse ausgegangen. In diesem Kapitel stellst du dich der Herausforderung, Daten ganz ohne oder mit sehr wenigen Labels zu modellieren. Das führt dich in Anomaly Detection, eine Art des unüberwachten Modellierens, sowie in Distance-based Learning, bei dem Annahmen darüber, was Ähnlichkeit zwischen zwei Beispielen ausmacht, Labels ersetzen können, um Genauigkeiten zu erreichen, die mit einem überwachten Workflow vergleichbar sind. Nach Abschluss dieses Kapitels hebst du dich klar von der Menge der Data Scientists ab, weil du souverän weißt, welche Tools du einsetzen kannst, um deinen Workflow anzupassen und gängige Praxisprobleme zu lösen.

Exercise 1: Anomalieerkennung Exercise 2: Ein einfacher Ausreißer Exercise 3: LoF-Kontamination Exercise 4: Neuheitenerkennung Exercise 5: Eine einfache Novelty Detection Exercise 6: Drei Novelty-Detectoren Exercise 7: Kontamination, noch einmal Exercise 8: Abstandsbasierte Lernverfahren Exercise 9: Finde den Nachbarn Exercise 10: Nicht alle Metriken sind sich einig

Aktuelle Übung

Exercise 11: Unstrukturierte Daten Exercise 12: Eingeschränktes Levenshtein Exercise 13: Alles zusammenführen Exercise 14: Abschließende Bemerkungen