Inizia subitoInizia gratis

Matrici sparse

Nel video hai imparato cosa sono le matrici sparse. Le matrici sparse possono diventare un incubo computazionale man mano che cresce il numero di documenti di testo e di parole uniche. Creare rappresentazioni delle parole con i tweet può generare facilmente matrici sparse perché si usano emoji, slang, acronimi e altre forme di linguaggio.

In questo esercizio seguirai i passaggi per calcolare quanto è sparso il dataset di tweet in russo. Nota che questo è un piccolo esempio di quanto velocemente l’analisi del testo possa trasformarsi in un serio problema computazionale.

Questo esercizio fa parte del corso

Introduzione all'Elaborazione del Linguaggio Naturale in R

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Tokenize and remove stop words
tidy_tweets <- russian_tweets %>%
  ___(word, content) %>%
  ___(stop_words)
# Count by word
unique_words <- tidy_tweets %>%
  count(___)
Modifica ed esegui il codice