Omdat tekst ongestructureerde data is, moet je die eerst bewerken om het analyseerbaar te maken. In dit hoofdstuk leer je structuur aanbrengen door te tokenizen, op te schonen en tekst als categorische data te behandelen.

Tekst als data

Data over airline-tweets

Gegroepeerde samenvattingen

Categorische gegevens tellen

Gebruikerstypen tellen

Gebruikerstypen samenvatten

Tokenizen en opschonen

Tokenizen en tellen

Opschonen en tellen

Tekst voorbereiden

Aantallen zijn nuttig, maar visualisaties zijn beter. In dit hoofdstuk leer je hoe je je kennis van ggplot2 toepast op tidy tekstdata.

Woordfrequenties plotten

Klachten visualiseren

Niet-klachten visualiseren

Woordteltplots verbeteren

Aangepaste stopwoorden toevoegen

Woordaantallen visualiseren met factors

Facetplots voor woordfrequenties

Tellen per product en herschikken

Woordaantallen visualiseren met facets

Woordwolken plotten

Een wordcloud maken

Een vleugje kleur toevoegen

Tekst visualiseren

Woordfrequenties en visualisaties zeggen iets over de inhoud, maar we kunnen verder gaan. In dit hoofdstuk gaan we voorbij aan alleen woordtellingen om het sentiment of de emotionele lading van tekst te analyseren.

Sentimentwoordenboeken

De NRC-sentimenten tellen

NRC-sentimenten visualiseren

Woordenboeken samenvoegen

Sentimenten tellen

Sentiment visualiseren

Sentimentanalyse verbeteren

Oefenen met het herschikken van data

Oefenen met gegroepeerde samenvattingen

Sentiment visualiseren per type klacht

Sentimentanalyse

In dit laatste hoofdstuk gaan we verder dan woordtellingen en brengen we de onderliggende topics in een verzameling documenten aan het licht. We gebruiken een standaard topicmodel, bekend als latent Dirichlet-allocatie.

Latent Dirichlet-allocatie

Topics als woordkansen

Topics samenvatten

Topics visualiseren

Document-termmatrices

Een DTM maken

Een DTM als matrix evalueren

Topicmodellen uitvoeren

Een LDA fitten

LDA-uitvoer opruimen

LDA-uitvoer vergelijken

Onderwerpen interpreteren

Drie topics een naam geven

Vier topics benoemen

Afronding

Topic modeling

Airline tweets

Roomba reviews

Van sociale media tot productreviews: tekst is een steeds belangrijker soort data in allerlei toepassingen, waaronder marketinganalytics. In veel gevallen vervangt tekst andere vormen van ongestructureerde data omdat het goedkoop en actueel is. Maar om alles uit tekst te halen, moet je weten hoe je tekst benadert, opschoont, samenvat en modelleert. In deze cursus gebruik je de nieuwste tidy-tools om snel en eenvoudig met tekst aan de slag te gaan. Je leert tekst prepareren en visualiseren, een sentimentanalyse uitvoeren en topicmodellen draaien en interpreteren.

Introduction to the Tidyverse

Ontdek hoe je tekstdata analyseert met het tidy framework in R: sentimentanalyse, topicmodellering en visualisatie.

Afronding

Create Your Free Account