Pickles

Jetzt ist es soweit: Du bringst dein erstes Modell in Produktion. Es handelt sich um einen Random-Forest-Klassifikator, den du als Baseline nutzt, während du noch an einer besseren Alternative arbeitest. Du hast Zugriff auf den üblichen Train-Test-Split der Daten mit den Namen X_train, X_test, y_train und y_test sowie auf die Module RandomForestClassifier() und pickle, deren Methoden .load() und .dump() du in dieser Übung brauchst.

Diese Übung ist Teil des Kurses

Machine-Learning-Workflows in Python entwerfen

Kurs anzeigen

Anleitung zur Übung

Trainiere einen Random-Forest-Klassifikator auf den Daten. Setze den Zufallssamen auf 42, damit deine Ergebnisse reproduzierbar sind.
Schreibe das Modell mit pickle in eine Datei. Öffne die Zieldatei mit der Syntax with open(____) as ____.
Lade das Modell anschließend aus der Datei in eine andere Variable, clf_from_file.
Speichere die Vorhersagen des geladenen Modells in der Variable preds.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Fit a random forest to the training set
clf = ____(____=42).____(
  X_train, y_train)

# Save it to a file, to be pushed to production
with ____('model.pkl', ____) as ____:
    pickle.____(clf, file=file)

# Now load the model from file in the production environment
with ____ as file:
    clf_from_file = pickle.____(file)

# Predict the labels of the test dataset
preds = clf_from_file.____

Code bearbeiten und ausführen

Machine-Learning-Workflows in Python entwerfen

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

74 reviews

In den vorherigen Kapiteln hast du eine solide Grundlage im überwachten Lernen gelegt, inklusive Wissen zur Bereitstellung von Modellen in der Produktion – dabei bist du jedoch stets von einem gelabelten Datensatz für deine Analyse ausgegangen. In diesem Kapitel stellst du dich der Herausforderung, Daten ganz ohne oder mit sehr wenigen Labels zu modellieren. Das führt dich in Anomaly Detection, eine Art des unüberwachten Modellierens, sowie in Distance-based Learning, bei dem Annahmen darüber, was Ähnlichkeit zwischen zwei Beispielen ausmacht, Labels ersetzen können, um Genauigkeiten zu erreichen, die mit einem überwachten Workflow vergleichbar sind. Nach Abschluss dieses Kapitels hebst du dich klar von der Menge der Data Scientists ab, weil du souverän weißt, welche Tools du einsetzen kannst, um deinen Workflow anzupassen und gängige Praxisprobleme zu lösen.

Exercise 1: Anomalieerkennung Exercise 2: Ein einfacher Ausreißer Exercise 3: LoF-Kontamination Exercise 4: Neuheitenerkennung Exercise 5: Eine einfache Novelty Detection Exercise 6: Drei Novelty-Detectoren Exercise 7: Kontamination, noch einmal Exercise 8: Abstandsbasierte Lernverfahren Exercise 9: Finde den Nachbarn Exercise 10: Nicht alle Metriken sind sich einig Exercise 11: Unstrukturierte Daten Exercise 12: Eingeschränktes Levenshtein Exercise 13: Alles zusammenführen Exercise 14: Abschließende Bemerkungen