Hoofdstuk 1 van Introductie tot Natural Language Processing bereidt je voor op je eerste tekstanalyse. Je verkent reguliere expressies en tokenization, twee van de meest gebruikte bouwstenen van veel analysetaken. Met reguliere expressies kun je zoeken naar elk patroon dat je maar kunt bedenken, en met tokenization maak en schoon je tekst voor meer geavanceerde analyses. Dit hoofdstuk is onmisbaar om de technieken aan te pakken die we in de overige hoofdstukken van deze cursus leren.

Basis van reguliere expressies

Oefenen met grep-syntaxis

Reguliere-expressiefuncties verkennen.

Tokenisatie

tidytext-functies

Tokenization: zinnen

De basis van tekst opschonen

Tekstvoorbewerking: stopwoorden verwijderen

Voorbewerking van tekst: stemming

Echte basisprincipes

In dit hoofdstuk leer je de meest gangbare en onderzochte manieren om tekst te analyseren. Je bekijkt hoe je een tekstcorpus maakt, hoe je een bag-of-words-weergave uitbreidt naar een TFIDF-matrix, en je gebruikt cosine-similarity-metingen om te bepalen hoe sterk twee teksten op elkaar lijken. Je bouwt voort op je basis voor het toepassen van NLP voordat je in de toepassingen van NLP in hoofdstukken 3 en 4 duikt.

Een R-corpus begrijpen

Verken een R-corpus

Een tibble maken van een corpus

Een corpus maken

De bag-of-words-representatie

Oefenen met BoW

BoW-voorbeeld

Sparse matrices

De TFIDF

Handmatige berekeningen

Oefenen met TFIDF

Cosinus-overeenkomst

Een voorbeeld van mislukte tekstanalyse

Voorbeeld van cosinusovereenkomst

Weergaven van tekst

Hoofdstuk 3 richt zich op twee veelgebruikte benaderingen voor tekstanalyse: classificatiemodellen en topic modeling. Als je met tekstanalyseprojecten bezig bent, zul je onvermijdelijk een of beide methoden gebruiken. In dit hoofdstuk leer je beide technieken uitvoeren en krijg je inzicht in hoe je deze technieken in de praktijk het beste kunt aanpakken.

Tekst voorbereiden voor modelleren

Gegevens voorbereiden

Schaarse termen verwijderen

Classificatiemodellering

Voorbeeld van classificatiemodel

Confusion matrices

TFIDF-tibble vs dtm

Introductie tot topic modeling

Oefenen met LDA

Onderwerpen toekennen aan documenten

LDA in de praktijk

Perplexity testen

LDA-resultaten beoordelen

Toepassingen: classificatie en topic modeling

In hoofdstuk 4 behandelen we twee klassiekers binnen natural language processing: sentimentanalyse en word embeddings. Dit zijn twee analysetechnieken die onmisbaar zijn voor iedereen die de basis van tekstanalyse wil beheersen. Daarnaast maak je kort kennis met BERT, part-of-speech tagging en named entity recognition. In deze cursus kwamen bijna 15 verschillende analysetechnieken voorbij, dus hoofdstuk 4 sluit af met een overzicht van alle mooie technieken die je in deze cursus leert.

Sentimentanalyse

tidytext-lexicons

Sentimentscores

Sentiment en emotie

Woordembeddings

oefenen met h2o

word2vec

Aanvullende NLP-analyses

Methoden herzien #1

Methoden herhalen #2

Conclusie

Geavanceerde technieken

Animal Farm

Russian Troll tweets

Zoals bij elke basiscursus is Introductie tot Natural Language Processing in R bedoeld om je de juiste tools te geven om te beginnen met het analyseren van tekst. Natural language processing (NLP) is een snelgroeiend onderdeel van data science, met de afgelopen tien jaar veel spannende ontwikkelingen. In deze cursus behandel je de basis van deze onderwerpen en bereid je je voor om je analysemogelijkheden uit te breiden. We duiken in reguliere expressies, topic modeling, named entity recognition en meer, met duidelijke voorbeelden die je kunt gebruiken om je toekomstige analyses een vliegende start te geven.

Intermediate R

Introduction to the Tidyverse

Ontdek basisvaardigheden en tools voor NLP in R, zoals regex, topic modeling en entiteitsherkenning.

Introductie tot Natural Language Processing in R

Krijg een overzicht van alle vaardigheden en tools die je nodig hebt om goed te worden in natuurlijke taalverwerking in R.

De TFIDF

Create Your Free Account