IniziaInizia gratis

Preparazione dei dati

Durante le elezioni statunitensi del 2016, bot russi su Twitter venivano usati per diffondere costantemente retorica politica sia ai democratici sia ai repubblicani. Ti è stato fornito un insieme di dati di tali tweet chiamato russian_tweets. Hai deciso di classificare questi tweet come orientati a sinistra (democratici) o a destra (repubblicani). Prima di poter costruire un modello di classificazione, devi pulire e preparare il testo per il modeling.

Questo esercizio fa parte del corso

Introduzione all'Elaborazione del Linguaggio Naturale in R

Visualizza il corso

Istruzioni dell'esercizio

  • Completa la tokenizzazione applicando lo stemming ai token.
  • Usa cast_dtm() per creare una matrice documento-termine.
  • Applica una pesatura tf-idf alla matrice documento-termine.
  • Stampa la matrice.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Stem the tokens
russian_tokens <- russian_tweets %>%
  unnest_tokens(output = "word", token = "words", input = content) %>%
  anti_join(stop_words) %>%
  ___(word = ___(word))

# Create a document term matrix using TFIDF weighting
tweet_matrix <- russian_tokens %>%
  count(tweet_id, word) %>%
  ___(document = ___, term = ___,
           value = n, weighting = tm::___)

# Print the matrix details 
___
Modifica ed esegui il codice