Fenstergröße abstimmen

du möchtest selbst überprüfen, dass die optimale Fenstergröße für den Arrhythmie-Datensatz 50 ist. Du hast den Datensatz als pandas-DataFrame namens arrh und willst einen Teil der Daten bis zum Zeitpunkt t_now verwenden. Deine Testdaten stehen dir als X_test, y_test zur Verfügung. Du probierst mehrere Fenstergrößen von 10 bis 100 aus, passt für jedes Fenster einen Naive-Bayes-Klassifikator an, bewertest dessen F1-Score auf den Testdaten und wählst anschließend die Fenstergröße mit der besten Leistung. Außerdem steht dir numpy als np zur Verfügung, und die Funktion f1_score() wurde bereits importiert. Schließlich wurde eine leere Liste namens accuracies initialisiert, in der du die Genauigkeiten der Fenster speichern kannst.

Diese Übung ist Teil des Kurses

<Kurs>Machine-Learning-Workflows in Python entwerfen</Kurs>

Übungsanweisungen

Definiere den Index eines gleitenden Fensters der Größe w_size, das bei t_now endet, mithilfe der Methode .loc().
Konstruiere X aus dem gleitenden Fenster, indem du die Spalte class entfernst. Speichere diese Spalte als y.
Fitte einen Naive-Bayes-Klassifikator auf X und y und verwende ihn, um die Labels der Testdaten X_test vorherzusagen.
Berechne den F1-Score dieser Vorhersagen für jede Fenstergröße und finde die Fenstergröße mit der besten Performance.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Loop over window sizes
for w_size in wrange:

    # Define sliding window
    sliding = arrh.____[____:t_now]

    # Extract X and y from the sliding window
    X, y = sliding.____('class', ____), sliding[____]
    
    # Fit the classifier and store the F1 score
    preds = GaussianNB().fit(____, ____).____(X_test)
    accuracies.append(____(____, ____))

# Estimate the best performing window size
optimal_window = ____[np.____(accuracies)]

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Machine-Learning-Workflows in Python entwerfen</Kurs>

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel frischen wir die Grundlagen eines Workflows für überwachtes Lernen auf – mit Modellanpassung, Tuning und Auswahl, Feature Engineering und -auswahl sowie Techniken zur Datenaufteilung. Du verstehst, wie diese Schritte im Workflow voneinander abhängen und erkennst, wie sie gemeinsam zu Overfitting beitragen oder dagegen wirken können – dem schlimmsten Feind von Data Scientists. Am Ende des Kapitels bist du sicher im überwachten Lernen und bereit, in den folgenden Kapiteln in fortgeschrittenere Inhalte einzutauchen.

Exercise 1: Pipelines für überwachtes Lernen Exercise 2: Feature Engineering Exercise 3: Deine erste Pipeline Exercise 4: Modellkomplexität und Overfitting Exercise 5: Grid-Search-CV für Modellkomplexität Exercise 6: Anzahl der Bäume und Schätzer Exercise 7: Feature Engineering und Overfitting Exercise 8: Kategorielle Encodings Exercise 9: Feature-Transformationen Exercise 10: Alles zusammenführen

Im vorherigen Kapitel hast du deine Kenntnisse über Standard-Workflows für überwachtes Lernen perfektioniert. In diesem Kapitel untersuchst du kritisch, wie Expertenwissen in überwachtes Lernen einfließt: durch die Wahl der passenden Analyseeinheit, die ggf. Feature Engineering über mehrere Datenquellen erfordert, durch den mitunter unvollkommenen Prozess des Labelns von Beispielen und durch die Festlegung einer Loss-Funktion, die den wahren geschäftlichen Wert von Fehlern deines Machine-Learning-Modells abbildet.

Exercise 1: Datenfusion Exercise 2: Ist die Quelle oder das Ziel schlecht?Exercise 3: Feature Engineering auf gruppierten Daten Exercise 4: Unvollständige Labels Exercise 5: Eine Heuristik in einen Klassifikator verwandeln Exercise 6: Heuristiken kombinieren Exercise 7: Umgang mit Label-Rauschen Exercise 8: Loss-Funktionen Teil I Exercise 9: Erinnerung: Leistungsmetriken Exercise 10: Kostenanalyse in der Praxis Exercise 11: Berechnungen mit der Konfusionsmatrix Exercise 12: Loss Functions Teil II Exercise 13: Standard-Thresholding Exercise 14: Den Schwellenwert optimieren Exercise 15: Alles zusammenführen

Im vorherigen Kapitel hast du verschiedene Wege genutzt, Feedback von Expertinnen und Experten in deinen Workflow einzubinden und es so zu bewerten, dass es dem Business Value entspricht. Jetzt übst du die Fähigkeiten, die du brauchst, um dein Modell zu produktisieren und durch iterative Verbesserungen dauerhaft leistungsfähig zu halten. Außerdem lernst du, Dataset Shift zu diagnostizieren und die Auswirkungen einer sich verändernden Umgebung auf die Genauigkeit deines Modells abzumildern.

Exercise 1: Von Workflows zu Pipelines Exercise 2: Deine erste Pipeline – nochmal!Exercise 3: Eigene Scorer in Pipelines Exercise 4: Modellbereitstellung Exercise 5: Pickles Exercise 6: Eigene FunctionTransformer in Pipelines Exercise 7: Iterieren ohne Overfitting Exercise 8: Fordere den Champion heraus Exercise 9: Cross-Validation-Statistiken Exercise 10: Datensatzverschiebung Exercise 11: Fenstergröße abstimmen

Aktuelle Übung

Exercise 12: Alles zusammenführen

In den vorherigen Kapiteln hast du eine solide Grundlage im überwachten Lernen gelegt, inklusive Wissen zur Bereitstellung von Modellen in der Produktion – dabei bist du jedoch stets von einem gelabelten Datensatz für deine Analyse ausgegangen. In diesem Kapitel stellst du dich der Herausforderung, Daten ganz ohne oder mit sehr wenigen Labels zu modellieren. Das führt dich in Anomaly Detection, eine Art des unüberwachten Modellierens, sowie in Distance-based Learning, bei dem Annahmen darüber, was Ähnlichkeit zwischen zwei Beispielen ausmacht, Labels ersetzen können, um Genauigkeiten zu erreichen, die mit einem überwachten Workflow vergleichbar sind. Nach Abschluss dieses Kapitels hebst du dich klar von der Menge der Data Scientists ab, weil du souverän weißt, welche Tools du einsetzen kannst, um deinen Workflow anzupassen und gängige Praxisprobleme zu lösen.

Exercise 1: Anomalieerkennung Exercise 2: Ein einfacher Ausreißer Exercise 3: LoF-Kontamination Exercise 4: Neuheitenerkennung Exercise 5: Eine einfache Novelty Detection Exercise 6: Drei Novelty-Detectoren Exercise 7: Kontamination, noch einmal Exercise 8: Abstandsbasierte Lernverfahren Exercise 9: Finde den Nachbarn Exercise 10: Nicht alle Metriken sind sich einig Exercise 11: Unstrukturierte Daten Exercise 12: Eingeschränktes Levenshtein Exercise 13: Alles zusammenführen Exercise 14: Abschließende Bemerkungen