or
Deze oefening maakt deel uit van de cursus
Hoofdstuk 1 van Introductie tot Natural Language Processing bereidt je voor op je eerste tekstanalyse. Je verkent reguliere expressies en tokenization, twee van de meest gebruikte bouwstenen van veel analysetaken. Met reguliere expressies kun je zoeken naar elk patroon dat je maar kunt bedenken, en met tokenization maak en schoon je tekst voor meer geavanceerde analyses. Dit hoofdstuk is onmisbaar om de technieken aan te pakken die we in de overige hoofdstukken van deze cursus leren.
In dit hoofdstuk leer je de meest gangbare en onderzochte manieren om tekst te analyseren. Je bekijkt hoe je een tekstcorpus maakt, hoe je een bag-of-words-weergave uitbreidt naar een TFIDF-matrix, en je gebruikt cosine-similarity-metingen om te bepalen hoe sterk twee teksten op elkaar lijken. Je bouwt voort op je basis voor het toepassen van NLP voordat je in de toepassingen van NLP in hoofdstukken 3 en 4 duikt.
Huidige oefening
Hoofdstuk 3 richt zich op twee veelgebruikte benaderingen voor tekstanalyse: classificatiemodellen en topic modeling. Als je met tekstanalyseprojecten bezig bent, zul je onvermijdelijk een of beide methoden gebruiken. In dit hoofdstuk leer je beide technieken uitvoeren en krijg je inzicht in hoe je deze technieken in de praktijk het beste kunt aanpakken.
In hoofdstuk 4 behandelen we twee klassiekers binnen natural language processing: sentimentanalyse en word embeddings. Dit zijn twee analysetechnieken die onmisbaar zijn voor iedereen die de basis van tekstanalyse wil beheersen. Daarnaast maak je kort kennis met BERT, part-of-speech tagging en named entity recognition. In deze cursus kwamen bijna 15 verschillende analysetechnieken voorbij, dus hoofdstuk 4 sluit af met een overzicht van alle mooie technieken die je in deze cursus leert.