Preparazione dei dati
Durante le elezioni statunitensi del 2016, bot russi su Twitter venivano usati per diffondere costantemente retorica politica sia ai democratici sia ai repubblicani. Ti è stato fornito un insieme di dati di tali tweet chiamato russian_tweets. Hai deciso di classificare questi tweet come orientati a sinistra (democratici) o a destra (repubblicani). Prima di poter costruire un modello di classificazione, devi pulire e preparare il testo per il modeling.
Questo esercizio fa parte del corso
Introduzione all'Elaborazione del Linguaggio Naturale in R
Istruzioni dell'esercizio
- Completa la tokenizzazione applicando lo stemming ai token.
- Usa
cast_dtm()per creare una matrice documento-termine. - Applica una pesatura tf-idf alla matrice documento-termine.
- Stampa la matrice.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Stem the tokens
russian_tokens <- russian_tweets %>%
unnest_tokens(output = "word", token = "words", input = content) %>%
anti_join(stop_words) %>%
___(word = ___(word))
# Create a document term matrix using TFIDF weighting
tweet_matrix <- russian_tokens %>%
count(tweet_id, word) %>%
___(document = ___, term = ___,
value = n, weighting = tm::___)
# Print the matrix details
___