or
Deze oefening maakt deel uit van de cursus
In dit hoofdstuk ontdek je wat feature engineering is en hoe je ermee aan de slag gaat op data uit de praktijk. Je laadt, verkent en visualiseert een gegevensset met enquête-antwoorden en leert zo over de onderliggende datatypes en waarom die bepalen hoe je je features moet engineeren. Met het pakket pandas maak je nieuwe features op basis van zowel categorische als continue kolommen.
Dit hoofdstuk laat je kennismaken met de realiteit van rommelige en onvolledige data. Je leert waar je data ontbrekende waarden heeft en verkent meerdere manieren om daarmee om te gaan. Je gebruikt ook stringbewerkingen om ongewenste tekens in je gegevensset op te schonen.
In dit hoofdstuk richt je je op het analyseren van de onderliggende verdeling van je data en of die invloed heeft op je Machine Learning-pijplijn. Je leert hoe je omgaat met scheve data en met situaties waarin uitschieters je analyse negatief kunnen beïnvloeden.
Tot slot werk je in dit hoofdstuk met ongestructureerde tekstdata en ontdek je manieren om kolomfeatures te maken uit een tekstcorpus. Je vergelijkt hoe verschillende aanpakken beïnvloeden hoeveel context uit tekst wordt gehaald en hoe je de behoefte aan context in balans houdt zonder te veel features te creëren.
Huidige oefening