Perplexity testen

Je hebt een gegevensset met tweets die zijn verstuurd door tweetbots tijdens de Amerikaanse verkiezingen van 2016. Je leidinggevende heeft twee interessante accounttypen aangewezen: Left en Right. Je leidinggevende heeft je gevraagd topic modeling uit te voeren op de tweets van Right-tweetbots. Daarnaast hoopt je leidinggevende de inhoud van deze tweets samen te vatten met topic modeling. Voer topic modeling uit met 5, 15 en 50 topics om een algemeen idee te krijgen van hoeveel topics er in de gegevens zitten.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

library(topicmodels)
# Setup train and test data
sample_size <- floor(0.90 * nrow(right_matrix))
set.seed(1111)
train_ind <- sample(nrow(right_matrix), size = sample_size)
train <- right_matrix[train_ind, ]
test <- right_matrix[-train_ind, ]

# Peform topic modeling 
lda_model <- LDA(___, k = ___, method = ___,
                 control = list(seed = 1111))
# Train
___(lda_model, newdata = ___) 
# Test
___(lda_model, newdata = ___)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

Hoofdstuk 1 van Introductie tot Natural Language Processing bereidt je voor op je eerste tekstanalyse. Je verkent reguliere expressies en tokenization, twee van de meest gebruikte bouwstenen van veel analysetaken. Met reguliere expressies kun je zoeken naar elk patroon dat je maar kunt bedenken, en met tokenization maak en schoon je tekst voor meer geavanceerde analyses. Dit hoofdstuk is onmisbaar om de technieken aan te pakken die we in de overige hoofdstukken van deze cursus leren.

Exercise 1: Basis van reguliere expressies Exercise 2: Oefenen met grep-syntaxis Exercise 3: Reguliere-expressiefuncties verkennen.Exercise 4: Tokenisatie Exercise 5: tidytext-functies Exercise 6: Tokenization: zinnen Exercise 7: De basis van tekst opschonen Exercise 8: Tekstvoorbewerking: stopwoorden verwijderen Exercise 9: Voorbewerking van tekst: stemming

In dit hoofdstuk leer je de meest gangbare en onderzochte manieren om tekst te analyseren. Je bekijkt hoe je een tekstcorpus maakt, hoe je een bag-of-words-weergave uitbreidt naar een TFIDF-matrix, en je gebruikt cosine-similarity-metingen om te bepalen hoe sterk twee teksten op elkaar lijken. Je bouwt voort op je basis voor het toepassen van NLP voordat je in de toepassingen van NLP in hoofdstukken 3 en 4 duikt.

Exercise 1: Een R-corpus begrijpen Exercise 2: Verken een R-corpus Exercise 3: Een tibble maken van een corpus Exercise 4: Een corpus maken Exercise 5: De bag-of-words-representatie Exercise 6: Oefenen met BoW Exercise 7: BoW-voorbeeld Exercise 8: Sparse matrices Exercise 9: De TFIDF Exercise 10: Handmatige berekeningen Exercise 11: Oefenen met TFIDF Exercise 12: Cosinus-overeenkomst Exercise 13: Een voorbeeld van mislukte tekstanalyse Exercise 14: Voorbeeld van cosinusovereenkomst

Hoofdstuk 3 richt zich op twee veelgebruikte benaderingen voor tekstanalyse: classificatiemodellen en topic modeling. Als je met tekstanalyseprojecten bezig bent, zul je onvermijdelijk een of beide methoden gebruiken. In dit hoofdstuk leer je beide technieken uitvoeren en krijg je inzicht in hoe je deze technieken in de praktijk het beste kunt aanpakken.

Exercise 1: Tekst voorbereiden voor modelleren Exercise 2: Gegevens voorbereiden Exercise 3: Schaarse termen verwijderen Exercise 4: Classificatiemodellering Exercise 5: Voorbeeld van classificatiemodel Exercise 6: Confusion matrices Exercise 7: TFIDF-tibble vs dtm Exercise 8: Introductie tot topic modeling Exercise 9: Oefenen met LDA Exercise 10: Onderwerpen toekennen aan documenten Exercise 11: LDA in de praktijk Exercise 12: Perplexity testen

Huidige oefening

Exercise 13: LDA-resultaten beoordelen

In hoofdstuk 4 behandelen we twee klassiekers binnen natural language processing: sentimentanalyse en word embeddings. Dit zijn twee analysetechnieken die onmisbaar zijn voor iedereen die de basis van tekstanalyse wil beheersen. Daarnaast maak je kort kennis met BERT, part-of-speech tagging en named entity recognition. In deze cursus kwamen bijna 15 verschillende analysetechnieken voorbij, dus hoofdstuk 4 sluit af met een overzicht van alle mooie technieken die je in deze cursus leert.

Exercise 1: Sentimentanalyse Exercise 2: tidytext-lexicons Exercise 3: Sentimentscores Exercise 4: Sentiment en emotie Exercise 5: Woordembeddings Exercise 6: oefenen met h2o Exercise 7: word2vec Exercise 8: Aanvullende NLP-analyses Exercise 9: Methoden herzien #1 Exercise 10: Methoden herhalen #2 Exercise 11: Conclusie