BoW-Beispiel
In Literaturübersichten lesen Forschende so viele verfügbare Texte zu einem Thema wie möglich und fassen sie zusammen. Manchmal lesen sie dabei doppelte Artikel oder Zusammenfassungen von Artikeln, die sie schon kennen. Du hast 20 Artikel über Rohöl als R-Objekt namens crude_tibble erhalten. Statt direkt jeden Artikel zu lesen, möchtest du zuerst prüfen, welche Wörter in diesen Artikeln gemeinsam vorkommen. Dafür beginnst du damit, eine Bag-of-Words-Repräsentation des Textes zu erstellen.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit R
Anleitung zur Übung
- Erstelle eine BoW-Repräsentation, indem du die Anzahl der Wörter pro Artikel mithilfe der Spalte
article_idzählst. - Verwende die Ausgabe, um zu bestimmen, wie viele eindeutige Artikel/Wort-Kombinationen erstellt wurden.
- Filtere die Ergebnisse auf Erwähnungen von
'prices'. - In wie vielen Artikeln kommt das Wort
pricesvor?
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Count occurrence by article_id and word
words <- crude_tibble %>%
unnest_tokens(output = "word", token = "words", input = text) %>%
anti_join(stop_words) %>%
count(___, ___, sort=TRUE)
# How many different word/article combinations are there?
unique_combinations <- nrow(___)
# Filter to responses with the word "prices"
words_with_prices <- words %>%
___(word == "___")
# How many articles had the word "prices"?
number_of_price_articles <- nrow(___)