In dit hoofdstuk ontdek je wat feature engineering is en hoe je ermee aan de slag gaat op data uit de praktijk. Je laadt, verkent en visualiseert een gegevensset met enquête-antwoorden en leert zo over de onderliggende datatypes en waarom die bepalen hoe je je features moet engineeren. Met het pakket pandas maak je nieuwe features op basis van zowel categorische als continue kolommen.

Waarom kenmerken genereren?

Je data leren kennen

Specifieke datatypes selecteren

Werken met categorische features

One-hot encoding en dummyvariabelen

Omgaan met ongebruikelijke categorieën

Numerieke variabelen

Kolommen binariseren

Waarden indelen in bins

Features maken

Dit hoofdstuk laat je kennismaken met de realiteit van rommelige en onvolledige data. Je leert waar je data ontbrekende waarden heeft en verkent meerdere manieren om daarmee om te gaan. Je gebruikt ook stringbewerkingen om ongewenste tekens in je gegevensset op te schonen.

Waarom bestaan ontbrekende waarden?

Hoe schaars is mijn data?

Ontbrekende waarden vinden

Omgaan met ontbrekende waarden (I)

Listwise deletion

Missende waarden vervangen door constanten

Omgaan met missende waarden (II)

Ontbrekende continue waarden invullen

Waarden imputeren in voorspellende modellen

Omgaan met andere databronproblemen

Omgaan met losse tekens (I)

Omgaan met losse tekens (II)

Method chaining

Werken met rommelige data

In dit hoofdstuk richt je je op het analyseren van de onderliggende verdeling van je data en of die invloed heeft op je Machine Learning-pijplijn. Je leert hoe je omgaat met scheve data en met situaties waarin uitschieters je analyse negatief kunnen beïnvloeden.

Data-verdelingen

Hoe zien je data eruit? (I)

Hoe zien je gegevens eruit? (II)

Wanneer hoef je je data niet te transformeren?

Schalen en transformaties

Normalisatie

Standaardiseren

Logtransformatie

Wanneer kun je normalisatie gebruiken?

Uitschieters verwijderen

Outliers verwijderen op basis van percentage

Statistische verwijdering van uitschieters

Schaal en transformeer nieuwe gegevens

Transformaties voor train en test (I)

Transformaties voor trainen en testen (II)

Voldoen aan statistische aannames

Tot slot werk je in dit hoofdstuk met ongestructureerde tekstdata en ontdek je manieren om kolomfeatures te maken uit een tekstcorpus. Je vergelijkt hoe verschillende aanpakken beïnvloeden hoeveel context uit tekst wordt gehaald en hoe je de behoefte aan context in balans houdt zonder te veel features te creëren.

Tekst encoderen

Je tekst opschonen

Hoogwaardige tekstkenmerken

Woordtellingen

Woorden tellen (I)

Woorden tellen (II)

Je features beperken

Tekst naar DataFrame

Term frequency-inverse document frequency

Tf-idf

Tf-idf-waarden inspecteren

Ongeziene data transformeren

N-grammen

Langere n-grams gebruiken

De meest voorkomende woorden vinden

Afronding

Werken met tekstdata

Stack Overflow Survey Responses (Modified)

US Presidential Inauguration Addresses

Elke dag lees je over indrukwekkende doorbraken waarbij de nieuwste toepassingen van Machine Learning de wereld veranderen. Vaak wordt daarbij voorbijgegaan aan het feit dat er een enorme hoeveelheid datavoorbewerking en feature engineering nodig is voordat je zulke geavanceerde modellen kunt gebruiken. In deze cursus leer je precies hoe je dat aanpakt. Je werkt met de Stack Overflow Developers-enquête en historische inauguratiespeeches van Amerikaanse presidenten om te begrijpen hoe je het beste features kunt voorbereiden en engineeren uit categorische, continue en ongestructureerde data. Deze cursus geeft je praktische ervaring met het voorbereiden van allerlei data voor je eigen Machine Learning-modellen.

Supervised Learning with scikit-learn

Leer data voor te bereiden voor machine learning door kenmerken uit verschillende datatypes te verwerken.

Afronding

Create Your Free Account