BoW-voorbeeld

Bij literatuuronderzoek lezen en vatten onderzoekers zoveel mogelijk beschikbare teksten over een onderwerp samen. Soms lezen ze per ongeluk dubbele artikelen of samenvattingen van artikelen die ze al kennen. Jij hebt 20 artikelen over ruwe olie gekregen als een R-object met de naam crude_tibble. In plaats van meteen elk artikel te gaan lezen, wil je eerst kijken welke woorden deze artikelen gemeen hebben. Daarom begin je met het bouwen van een bag-of-words-representatie van de tekst.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Bekijk cursus

Oefeninstructies

Maak een BoW-representatie door het aantal woorden per artikel te tellen met de kolom article_id.
Gebruik de output om te bepalen hoeveel unieke artikel/woord-combinaties er zijn gemaakt.
Filter de resultaten op vermeldingen van 'prices'.
In hoeveel artikelen komt het woord prices voor?

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Count occurrence by article_id and word
words <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(___, ___, sort=TRUE)

# How many different word/article combinations are there?
unique_combinations <- nrow(___)

# Filter to responses with the word "prices"
words_with_prices <- words %>%
  ___(word == "___")

# How many articles had the word "prices"?
number_of_price_articles <- nrow(___)

Code bewerken en uitvoeren

Introductie tot Natural Language Processing in R

SkillTag.level.intermediateSkillTag.label

4.8+

40 reviews

In hoofdstuk 4 behandelen we twee klassiekers binnen natural language processing: sentimentanalyse en word embeddings. Dit zijn twee analysetechnieken die onmisbaar zijn voor iedereen die de basis van tekstanalyse wil beheersen. Daarnaast maak je kort kennis met BERT, part-of-speech tagging en named entity recognition. In deze cursus kwamen bijna 15 verschillende analysetechnieken voorbij, dus hoofdstuk 4 sluit af met een overzicht van alle mooie technieken die je in deze cursus leert.

Exercise 1: Sentimentanalyse Exercise 2: tidytext-lexicons Exercise 3: Sentimentscores Exercise 4: Sentiment en emotie Exercise 5: Woordembeddings Exercise 6: oefenen met h2o Exercise 7: word2vec Exercise 8: Aanvullende NLP-analyses Exercise 9: Methoden herzien #1 Exercise 10: Methoden herhalen #2 Exercise 11: Conclusie