IniziaInizia gratis

Matrici sparse

Nel video hai imparato cosa sono le matrici sparse. Le matrici sparse possono diventare un incubo computazionale man mano che cresce il numero di documenti di testo e di parole uniche. Creare rappresentazioni delle parole con i tweet può generare facilmente matrici sparse perché si usano emoji, slang, acronimi e altre forme di linguaggio.

In questo esercizio seguirai i passaggi per calcolare quanto è sparso il dataset di tweet in russo. Nota che questo è un piccolo esempio di quanto velocemente l’analisi del testo possa trasformarsi in un serio problema computazionale.

Questo esercizio fa parte del corso

Introduzione all'Elaborazione del Linguaggio Naturale in R

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Tokenize and remove stop words
tidy_tweets <- russian_tweets %>%
  ___(word, content) %>%
  ___(stop_words)
# Count by word
unique_words <- tidy_tweets %>%
  count(___)
Modifica ed esegui il codice