Anatomie van een Machine Learning-model

Nu ga je je begrip versterken van hoe data de modelprestaties beïnvloedt. Je werkt met de Airbnb-boekingsgegevensset (in het bestand booking.csv). De gegevensset is geschikt voor classificatietaken om te voorspellen of iemand een boeking annuleert. Hij bevat meerdere numerieke en categorische kolommen. Je splitst de gegevensset op in drie onderling exclusieve samples — train_A.csv, train_B.csv en test.csv — met het script split_dataset.py. Vervolgens voer je voor elke trainingsset de dataverwerking en modeltrainingspipeline uit om een Random Forest Classifier-model te trainen en test je de prestaties op de testset met model_training.py. De hyperparameters in params.json zijn in beide runs hetzelfde.

De Python-scripts accepteren commandoregelargumenten en worden via de shell uitgevoerd. Voel je vrij om deze scripts te bekijken om je begrip te vergroten.

Deze oefening maakt deel uit van de cursus

Introductie tot dataversiebeheer met DVC

Bekijk cursus

Interactieve oefening met praktijkervaring

Zet theorie om in actie met een van onze interactieve oefeningen

Begin oefening

Introductie tot dataversiebeheer met DVC

SkillTag.level.intermediateSkillTag.label

4.8+

388 reviews

Dit hoofdstuk biedt een uitgebreide introductie tot Data Version Control (DVC), een essentiële tool voor dataversiebeheer in Machine Learning. Je ontdekt waarom dataversiebeheer belangrijk is, begrijpt de verschillen met codeversiebeheer en experimenteert met een eenvoudig classificatieprobleem. Je herhaalt basis-Git-commando’s, maakt kennis met DVC en oefent met het opzetten van een repository. Het hoofdstuk sluit af met een overzicht van DVC-functies en use-cases, waaronder versiebeheer van data en modellen, CI/CD voor Machine Learning, experiment tracking, pipelines en meer.

Exercise 1: Motivatie voor data versioning Exercise 2: Anatomie van een Machine Learning-model

Huidige oefening

Exercise 3: Verschillen tussen data- en codeversiebeheer Exercise 4: Hyperparameters begrijpen Exercise 5: Introductie tot DVC Exercise 6: Werken met de Git-CLI Exercise 7: DVC CLI herhalen Exercise 8: DVC-functies en use-cases Exercise 9: DVC-pipelines Exercise 10: CI/CD voor machine learning