Sparse matrices
In de video heb je geleerd over sparse matrices. Sparse matrices kunnen een rekenkundige nachtmerrie worden naarmate het aantal tekstdocumenten en het aantal unieke woorden groeit. Woordrepresentaties maken met tweets levert al snel sparse matrices op, omdat er emojis, slang, afkortingen en andere taalvormen worden gebruikt.
In deze oefening doorloop je de stappen om te berekenen hoe ‘sparse’ de Russische tweetgegevensset is. Let op: dit is een klein voorbeeld van hoe snel tekstanalyse een groot rekenprobleem kan worden.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Tokenize and remove stop words
tidy_tweets <- russian_tweets %>%
___(word, content) %>%
___(stop_words)
# Count by word
unique_words <- tidy_tweets %>%
count(___)