Anatomie eines Machine-Learning-Modells

Jetzt vertiefst du dein Verständnis dafür, wie Daten die Modellleistung beeinflussen. Du arbeitest mit dem Airbnb-Buchungsdatensatz (in der Datei booking.csv). Der Datensatz eignet sich für Klassifikationsaufgaben, um vorherzusagen, ob jemand eine Buchung storniert. Er enthält mehrere numerische und kategoriale Spalten. Du teilst den bereitgestellten Datensatz mithilfe des Skripts split_dataset.py in drei disjunkte Stichproben auf – train_A.csv, train_B.csv und test.csv. Anschließend führst du für jeden Trainingsdatensatz die Datenverarbeitung und Trainings-Pipeline aus, um ein Random-Forest-Klassifikationsmodell zu trainieren, und testest seine Leistung auf dem Testset mit model_training.py. Die in params.json definierten Hyperparameter sind in beiden Durchläufen identisch.

Die Python-Skripte akzeptieren Befehlszeilenargumente und werden über die Shell ausgeführt. Schau dir die Skripte gern an, um dein Verständnis zu vertiefen.

Diese Übung ist Teil des Kurses

Einführung in Data Versioning mit DVC

Kurs anzeigen

Interaktive Übung

In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.

Übung starten

Einführung in Data Versioning mit DVC

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

291 reviews

Dieses Kapitel bietet eine umfassende Einführung in Data Version Control (DVC), ein unverzichtbares Tool für die Datenversionierung im Machine Learning. Du lernst die Motivation hinter der Datenversionierung kennen, verstehst die Unterschiede zur Code-Versionierung und arbeitest an einem einfachen Klassifikationsproblem. Außerdem wiederholst du grundlegende Git-Befehle, lernst DVC kennen und übst das Einrichten eines Repositories. Zum Schluss erhältst du einen Überblick über DVCs Funktionen und Anwendungsfälle, darunter das Versionieren von Daten und Modellen, CI/CD für Machine Learning, Experiment-Tracking, Pipelines und mehr.

Exercise 1: Motivation für Data Versioning Exercise 2: Anatomie eines Machine-Learning-Modells

Aktuelle Übung

Exercise 3: Unterschiede zwischen Daten- und Code-Versionierung Exercise 4: Hyperparameter verstehen Exercise 5: Einführung in DVC Exercise 6: Arbeiten mit der Git-CLI Exercise 7: DVC-CLI wiederholen Exercise 8: DVC‑Funktionen und Anwendungsfälle Exercise 9: DVC-Pipelines Exercise 10: CI/CD für Machine Learning