Aan de slagGa gratis aan de slag

Sparse matrices

In de video heb je geleerd over sparse matrices. Sparse matrices kunnen een rekenkundige nachtmerrie worden naarmate het aantal tekstdocumenten en het aantal unieke woorden groeit. Woordrepresentaties maken met tweets levert al snel sparse matrices op, omdat er emojis, slang, afkortingen en andere taalvormen worden gebruikt.

In deze oefening doorloop je de stappen om te berekenen hoe ‘sparse’ de Russische tweetgegevensset is. Let op: dit is een klein voorbeeld van hoe snel tekstanalyse een groot rekenprobleem kan worden.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Tokenize and remove stop words
tidy_tweets <- russian_tweets %>%
  ___(word, content) %>%
  ___(stop_words)
# Count by word
unique_words <- tidy_tweets %>%
  count(___)
Code bewerken en uitvoeren