LoslegenKostenlos loslegen

Sparse Matrizen

Im Video hast du etwas über Sparse Matrizen gelernt. Sparse Matrizen können schnell zu einem Rechenalbtraum werden, wenn die Anzahl der Textdokumente und die Anzahl der einzigartigen Wörter wächst. Wortrepräsentationen aus Tweets führen leicht zu Sparse Matrizen, weil Emojis, Slang, Akronyme und andere Sprachformen verwendet werden.

In dieser Übung gehst du die Schritte durch, um zu berechnen, wie „sparse“ der russische Tweet-Datensatz ist. Beachte, dass dies ein kleines Beispiel dafür ist, wie schnell Textanalyse zu einem großen rechnerischen Problem werden kann.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit R

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Tokenize and remove stop words
tidy_tweets <- russian_tweets %>%
  ___(word, content) %>%
  ___(stop_words)
# Count by word
unique_words <- tidy_tweets %>%
  count(___)
Code bearbeiten und ausführen