Feature Engineering

Du sollst vorhersagen, ob eine neue Kohorte von Kreditbewerber:innen ihre Kredite voraussichtlich nicht zurückzahlen wird. Dafür hast du einen historischen Datensatz und möchtest darauf einen Klassifikator trainieren. Dir fällt auf, dass viele Features als Strings vorliegen – das ist für deine Klassifikatoren problematisch. Deshalb entscheidest du dich, die String-Spalten numerisch zu kodieren, und zwar mit LabelEncoder(). Die Funktion wurde aus dem preprocessing-Untermodul von sklearn bereits für dich geladen. Der Datensatz credit ist ebenfalls vorab geladen, ebenso eine Liste aller Spaltennamen mit String-Datentypen in non_numeric_columns.

Diese Übung ist Teil des Kurses

Machine-Learning-Workflows in Python entwerfen

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Inspect the first few lines of your data using head()
credit.____

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Machine-Learning-Workflows in Python entwerfen

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

74 reviews

Kurs kostenlos starten

In diesem Kapitel frischen wir die Grundlagen eines Workflows für überwachtes Lernen auf – mit Modellanpassung, Tuning und Auswahl, Feature Engineering und -auswahl sowie Techniken zur Datenaufteilung. Du verstehst, wie diese Schritte im Workflow voneinander abhängen und erkennst, wie sie gemeinsam zu Overfitting beitragen oder dagegen wirken können – dem schlimmsten Feind von Data Scientists. Am Ende des Kapitels bist du sicher im überwachten Lernen und bereit, in den folgenden Kapiteln in fortgeschrittenere Inhalte einzutauchen.

Exercise 1: Pipelines für überwachtes Lernen Exercise 2: Feature Engineering

Aktuelle Übung

Exercise 3: Deine erste Pipeline Exercise 4: Modellkomplexität und Overfitting Exercise 5: Grid-Search-CV für Modellkomplexität Exercise 6: Anzahl der Bäume und Schätzer Exercise 7: Feature Engineering und Overfitting Exercise 8: Kategorielle Encodings Exercise 9: Feature-Transformationen Exercise 10: Alles zusammenführen

Im vorherigen Kapitel hast du deine Kenntnisse über Standard-Workflows für überwachtes Lernen perfektioniert. In diesem Kapitel untersuchst du kritisch, wie Expertenwissen in überwachtes Lernen einfließt: durch die Wahl der passenden Analyseeinheit, die ggf. Feature Engineering über mehrere Datenquellen erfordert, durch den mitunter unvollkommenen Prozess des Labelns von Beispielen und durch die Festlegung einer Loss-Funktion, die den wahren geschäftlichen Wert von Fehlern deines Machine-Learning-Modells abbildet.

Exercise 1: Datenfusion Exercise 2: Ist die Quelle oder das Ziel schlecht?Exercise 3: Feature Engineering auf gruppierten Daten Exercise 4: Unvollständige Labels Exercise 5: Eine Heuristik in einen Klassifikator verwandeln Exercise 6: Heuristiken kombinieren Exercise 7: Umgang mit Label-Rauschen Exercise 8: Loss-Funktionen Teil I Exercise 9: Erinnerung: Leistungsmetriken Exercise 10: Kostenanalyse in der Praxis Exercise 11: Berechnungen mit der Konfusionsmatrix Exercise 12: Loss Functions Teil II Exercise 13: Standard-Thresholding Exercise 14: Den Schwellenwert optimieren Exercise 15: Alles zusammenführen

Im vorherigen Kapitel hast du verschiedene Wege genutzt, Feedback von Expertinnen und Experten in deinen Workflow einzubinden und es so zu bewerten, dass es dem Business Value entspricht. Jetzt übst du die Fähigkeiten, die du brauchst, um dein Modell zu produktisieren und durch iterative Verbesserungen dauerhaft leistungsfähig zu halten. Außerdem lernst du, Dataset Shift zu diagnostizieren und die Auswirkungen einer sich verändernden Umgebung auf die Genauigkeit deines Modells abzumildern.

Exercise 1: Von Workflows zu Pipelines Exercise 2: Deine erste Pipeline – nochmal!Exercise 3: Eigene Scorer in Pipelines Exercise 4: Modellbereitstellung Exercise 5: Pickles Exercise 6: Eigene FunctionTransformer in Pipelines Exercise 7: Iterieren ohne Overfitting Exercise 8: Fordere den Champion heraus Exercise 9: Cross-Validation-Statistiken Exercise 10: Datensatzverschiebung Exercise 11: Fenstergröße abstimmen Exercise 12: Alles zusammenführen

In den vorherigen Kapiteln hast du eine solide Grundlage im überwachten Lernen gelegt, inklusive Wissen zur Bereitstellung von Modellen in der Produktion – dabei bist du jedoch stets von einem gelabelten Datensatz für deine Analyse ausgegangen. In diesem Kapitel stellst du dich der Herausforderung, Daten ganz ohne oder mit sehr wenigen Labels zu modellieren. Das führt dich in Anomaly Detection, eine Art des unüberwachten Modellierens, sowie in Distance-based Learning, bei dem Annahmen darüber, was Ähnlichkeit zwischen zwei Beispielen ausmacht, Labels ersetzen können, um Genauigkeiten zu erreichen, die mit einem überwachten Workflow vergleichbar sind. Nach Abschluss dieses Kapitels hebst du dich klar von der Menge der Data Scientists ab, weil du souverän weißt, welche Tools du einsetzen kannst, um deinen Workflow anzupassen und gängige Praxisprobleme zu lösen.

Exercise 1: Anomalieerkennung Exercise 2: Ein einfacher Ausreißer Exercise 3: LoF-Kontamination Exercise 4: Neuheitenerkennung Exercise 5: Eine einfache Novelty Detection Exercise 6: Drei Novelty-Detectoren Exercise 7: Kontamination, noch einmal Exercise 8: Abstandsbasierte Lernverfahren Exercise 9: Finde den Nachbarn Exercise 10: Nicht alle Metriken sind sich einig Exercise 11: Unstrukturierte Daten Exercise 12: Eingeschränktes Levenshtein Exercise 13: Alles zusammenführen Exercise 14: Abschließende Bemerkungen