Anatomie eines Machine-Learning-Modells
Jetzt vertiefst du dein Verständnis dafür, wie Daten die Modellleistung beeinflussen. Du arbeitest mit dem Airbnb-Buchungsdatensatz (in der Datei booking.csv). Der Datensatz eignet sich für Klassifikationsaufgaben, um vorherzusagen, ob jemand eine Buchung storniert. Er enthält mehrere numerische und kategoriale Spalten.
Du teilst den bereitgestellten Datensatz mithilfe des Skripts split_dataset.py in drei disjunkte Stichproben auf – train_A.csv, train_B.csv und test.csv. Anschließend führst du für jeden Trainingsdatensatz die Datenverarbeitung und Trainings-Pipeline aus, um ein Random-Forest-Klassifikationsmodell zu trainieren, und testest seine Leistung auf dem Testset mit model_training.py. Die in params.json definierten Hyperparameter sind in beiden Durchläufen identisch.
Die Python-Skripte akzeptieren Befehlszeilenargumente und werden über die Shell ausgeführt. Schau dir die Skripte gern an, um dein Verständnis zu vertiefen.
Diese Übung ist Teil des Kurses
Einführung in Data Versioning mit DVC
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
Übung starten