LoslegenKostenlos loslegen

BoW-Beispiel

In Literaturübersichten lesen Forschende so viele verfügbare Texte zu einem Thema wie möglich und fassen sie zusammen. Manchmal lesen sie dabei doppelte Artikel oder Zusammenfassungen von Artikeln, die sie schon kennen. Du hast 20 Artikel über Rohöl als R-Objekt namens crude_tibble erhalten. Statt direkt jeden Artikel zu lesen, möchtest du zuerst prüfen, welche Wörter in diesen Artikeln gemeinsam vorkommen. Dafür beginnst du damit, eine Bag-of-Words-Repräsentation des Textes zu erstellen.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit R

Kurs anzeigen

Anleitung zur Übung

  • Erstelle eine BoW-Repräsentation, indem du die Anzahl der Wörter pro Artikel mithilfe der Spalte article_id zählst.
  • Verwende die Ausgabe, um zu bestimmen, wie viele eindeutige Artikel/Wort-Kombinationen erstellt wurden.
  • Filtere die Ergebnisse auf Erwähnungen von 'prices'.
  • In wie vielen Artikeln kommt das Wort prices vor?

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Count occurrence by article_id and word
words <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(___, ___, sort=TRUE)

# How many different word/article combinations are there?
unique_combinations <- nrow(___)

# Filter to responses with the word "prices"
words_with_prices <- words %>%
  ___(word == "___")

# How many articles had the word "prices"?
number_of_price_articles <- nrow(___)
Code bearbeiten und ausführen