In den vorherigen Kapiteln hast du eine solide Grundlage im überwachten Lernen gelegt, inklusive Wissen zur Bereitstellung von Modellen in der Produktion – dabei bist du jedoch stets von einem gelabelten Datensatz für deine Analyse ausgegangen. In diesem Kapitel stellst du dich der Herausforderung, Daten ganz ohne oder mit sehr wenigen Labels zu modellieren. Das führt dich in Anomaly Detection, eine Art des unüberwachten Modellierens, sowie in Distance-based Learning, bei dem Annahmen darüber, was Ähnlichkeit zwischen zwei Beispielen ausmacht, Labels ersetzen können, um Genauigkeiten zu erreichen, die mit einem überwachten Workflow vergleichbar sind. Nach Abschluss dieses Kapitels hebst du dich klar von der Menge der Data Scientists ab, weil du souverän weißt, welche Tools du einsetzen kannst, um deinen Workflow anzupassen und gängige Praxisprobleme zu lösen.
Exercise 1: AnomalieerkennungExercise 2: Ein einfacher AusreißerExercise 3: LoF-KontaminationExercise 4: NeuheitenerkennungExercise 5: Eine einfache Novelty DetectionExercise 6: Drei Novelty-DetectorenExercise 7: Kontamination, noch einmalExercise 8: Abstandsbasierte LernverfahrenExercise 9: Finde den NachbarnExercise 10: Nicht alle Metriken sind sich einigExercise 11: Unstrukturierte DatenExercise 12: Eingeschränktes LevenshteinExercise 13: Alles zusammenführenExercise 14: Abschließende Bemerkungen