Eigene FunctionTransformer in Pipelines

Dir wurde mitgeteilt, dass die Sensoren bei adipösen Personen möglicherweise schlecht funktionieren. Zuvor hast du das über Gewichte berücksichtigt, aber jetzt denkst du, dass diese Information auch für Feature Engineering nützlich sein könnte. Daher entscheidest du dich, das aufgezeichnete Gewicht einer Person durch einen Indikator zu ersetzen, der angibt, ob sie adipös ist. Du möchtest das mit Pipelines umsetzen. Dir stehen numpy als np, RandomForestClassifier(), FunctionTransformer() und GridSearchCV() zur Verfügung.

Diese Übung ist Teil des Kurses

Machine-Learning-Workflows in Python entwerfen

Kurs anzeigen

Anleitung zur Übung

Definiere einen eigenen Feature-Extractor. Das ist eine Funktion, die eine veränderte Kopie ihrer Eingabe ausgibt.
Ersetze jeden Wert der ersten Spalte durch einen Indikator dafür, ob dieser Wert über einem Schwellwert liegt, der durch ein Vielfaches des Spaltenmittels gegeben ist.
Wandle den obigen Feature-Extractor in einen Transformer um und füge ihn zusammen mit einem Random-Forest-Klassifikator in eine Pipeline ein.
Verwende Grid-Search-CV, um die Werte 1, 2 und 3 für die Multiplikationskonstante multiplier in deinem Feature-Extractor auszuprobieren.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Define a feature extractor to flag very large values
def more_than_average(X, multiplier=1.0):
  Z = ____
  Z[:,1] = ____ > multiplier*np.mean(Z[:,1])
  return Z

# Convert your function so that it can be used in a pipeline
pipe = Pipeline([
  ('ft', ____(____)),
  ('clf', RandomForestClassifier(random_state=2))])

# Optimize the parameter multiplier using GridSearchCV
params = ____
grid_search = GridSearchCV(pipe, param_grid=params)

Code bearbeiten und ausführen

Machine-Learning-Workflows in Python entwerfen

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

74 reviews

In den vorherigen Kapiteln hast du eine solide Grundlage im überwachten Lernen gelegt, inklusive Wissen zur Bereitstellung von Modellen in der Produktion – dabei bist du jedoch stets von einem gelabelten Datensatz für deine Analyse ausgegangen. In diesem Kapitel stellst du dich der Herausforderung, Daten ganz ohne oder mit sehr wenigen Labels zu modellieren. Das führt dich in Anomaly Detection, eine Art des unüberwachten Modellierens, sowie in Distance-based Learning, bei dem Annahmen darüber, was Ähnlichkeit zwischen zwei Beispielen ausmacht, Labels ersetzen können, um Genauigkeiten zu erreichen, die mit einem überwachten Workflow vergleichbar sind. Nach Abschluss dieses Kapitels hebst du dich klar von der Menge der Data Scientists ab, weil du souverän weißt, welche Tools du einsetzen kannst, um deinen Workflow anzupassen und gängige Praxisprobleme zu lösen.

Exercise 1: Anomalieerkennung Exercise 2: Ein einfacher Ausreißer Exercise 3: LoF-Kontamination Exercise 4: Neuheitenerkennung Exercise 5: Eine einfache Novelty Detection Exercise 6: Drei Novelty-Detectoren Exercise 7: Kontamination, noch einmal Exercise 8: Abstandsbasierte Lernverfahren Exercise 9: Finde den Nachbarn Exercise 10: Nicht alle Metriken sind sich einig Exercise 11: Unstrukturierte Daten Exercise 12: Eingeschränktes Levenshtein Exercise 13: Alles zusammenführen Exercise 14: Abschließende Bemerkungen