or
Deze oefening maakt deel uit van de cursus
In dit hoofdstuk fris je de basis van een supervised learning-workflow op, inclusief het trainen, afstemmen en selecteren van modellen, feature engineering en -selectie, en technieken voor het splitsen van data. Je ontdekt hoe de stappen in een workflow van elkaar afhangen, en herkent hoe ze kunnen bijdragen aan of juist beschermen tegen overfitting: de grootste vijand van de data scientist. Aan het einde van dit hoofdstuk ben je al vaardig met supervised learning en klaar om in latere hoofdstukken de meer gevorderde stof in te duiken.
In het vorige hoofdstuk heb je je kennis van de standaard supervised learning-workflows geperfectioneerd. In dit hoofdstuk bekijk je kritisch hoe expertkennis wordt verwerkt in supervised learning. Dat doe je door de juiste analyseeenheid te bepalen — wat feature engineering over meerdere databronnen kan vereisen —, door het soms onvolmaakte proces van het labelen van voorbeelden, en door het specificeren van een loss-functie die de echte bedrijfswaarde van fouten van je Machine Learning-model vastlegt.
Huidige oefening
In het vorige hoofdstuk heb je verschillende manieren gebruikt om feedback van experts in je workflow op te nemen en te evalueren op een manier die aansluit bij bedrijfswaarde. Nu ga je oefenen met de vaardigheden die nodig zijn om je model te productiseren en ervoor te zorgen dat het daarna goed blijft presteren door het iteratief te verbeteren. Je leert ook hoe je dataset shift herkent en het effect beperkt dat een veranderende omgeving kan hebben op de nauwkeurigheid van je model.
In de vorige hoofdstukken heb je een solide basis gelegd in supervised learning, inclusief kennis over het uitrollen van modellen in productie, maar daarbij ging je er steeds van uit dat je een gelabelde gegevensset had voor je analyse. In dit hoofdstuk ga je de uitdaging aan om te modelleren met geen of heel weinig labels. Je maakt een reis langs anomaly detection, een vorm van unsupervised modelleren, en langs distance-based learning, waarbij aannames over wat overeenkomt met ‘gelijkenis’ tussen twee voorbeelden labels kunnen vervangen om een nauwkeurigheid te bereiken die vergelijkbaar is met een supervised workflow. Na dit hoofdstuk onderscheid je je duidelijk van andere data scientists omdat je vol vertrouwen weet welke tools je gebruikt om je workflow aan te passen en veelvoorkomende uitdagingen uit de praktijk te overwinnen.