Matrici sparse
Nel video hai imparato cosa sono le matrici sparse. Le matrici sparse possono diventare un incubo computazionale man mano che cresce il numero di documenti di testo e di parole uniche. Creare rappresentazioni delle parole con i tweet può generare facilmente matrici sparse perché si usano emoji, slang, acronimi e altre forme di linguaggio.
In questo esercizio seguirai i passaggi per calcolare quanto è sparso il dataset di tweet in russo. Nota che questo è un piccolo esempio di quanto velocemente l’analisi del testo possa trasformarsi in un serio problema computazionale.
Questo esercizio fa parte del corso
Introduzione all'Elaborazione del Linguaggio Naturale in R
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Tokenize and remove stop words
tidy_tweets <- russian_tweets %>%
___(word, content) %>%
___(stop_words)
# Count by word
unique_words <- tidy_tweets %>%
count(___)