Aan de slagGa gratis aan de slag

Anatomie van een Machine Learning-model

Nu ga je je begrip versterken van hoe data de modelprestaties beïnvloedt. Je werkt met de Airbnb-boekingsgegevensset (in het bestand booking.csv). De gegevensset is geschikt voor classificatietaken om te voorspellen of iemand een boeking annuleert. Hij bevat meerdere numerieke en categorische kolommen. Je splitst de gegevensset op in drie onderling exclusieve samples — train_A.csv, train_B.csv en test.csv — met het script split_dataset.py. Vervolgens voer je voor elke trainingsset de data­verwerking en modeltrainingspipeline uit om een Random Forest Classifier-model te trainen en test je de prestaties op de testset met model_training.py. De hyperparameters in params.json zijn in beide runs hetzelfde.

De Python-scripts accepteren commandoregelargumenten en worden via de shell uitgevoerd. Voel je vrij om deze scripts te bekijken om je begrip te vergroten.

Deze oefening maakt deel uit van de cursus

Introductie tot dataversiebeheer met DVC

Cursus bekijken

Praktische interactieve oefening

Zet theorie om in actie met een van onze interactieve oefeningen.

Begin met trainen