Preparación de datos
Durante las elecciones de EE. UU. de 2016, bots rusos de Twitter se usaron para difundir de forma constante mensajes políticos tanto a demócratas como a republicanos. Tienes un conjunto de datos con esos tuits llamado russian_tweets. Has decidido clasificar estos tuits según su orientación: de izquierdas (demócratas) o de derechas (republicanos). Antes de poder crear un modelo de clasificación, necesitas limpiar y preparar el texto para el modelado.
Este ejercicio forma parte del curso
Introducción al procesamiento del lenguaje natural en R
Instrucciones del ejercicio
- Finaliza el proceso de tokenización aplicando stemming a los tokens.
- Usa
cast_dtm()para crear una matriz documento-término. - Aplica una ponderación tfidf a la matriz documento-término.
- Imprime la matriz.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Stem the tokens
russian_tokens <- russian_tweets %>%
unnest_tokens(output = "word", token = "words", input = content) %>%
anti_join(stop_words) %>%
___(word = ___(word))
# Create a document term matrix using TFIDF weighting
tweet_matrix <- russian_tokens %>%
count(tweet_id, word) %>%
___(document = ___, term = ___,
value = n, weighting = tm::___)
# Print the matrix details
___