or
Deze oefening maakt deel uit van de cursus
Omdat tekst ongestructureerde data is, moet je die eerst bewerken om het analyseerbaar te maken. In dit hoofdstuk leer je structuur aanbrengen door te tokenizen, op te schonen en tekst als categorische data te behandelen.
Aantallen zijn nuttig, maar visualisaties zijn beter. In dit hoofdstuk leer je hoe je je kennis van ggplot2 toepast op tidy tekstdata.
Woordfrequenties en visualisaties zeggen iets over de inhoud, maar we kunnen verder gaan. In dit hoofdstuk gaan we voorbij aan alleen woordtellingen om het sentiment of de emotionele lading van tekst te analyseren.
In dit laatste hoofdstuk gaan we verder dan woordtellingen en brengen we de onderliggende topics in een verzameling documenten aan het licht. We gebruiken een standaard topicmodel, bekend als latent Dirichlet-allocatie.
Huidige oefening