Limpieza y recuento
Elimina las stop words para explorar el contenido únicamente de los tuits de aerolíneas clasificados como quejas en twitter_data.
Este ejercicio forma parte del curso
Introducción al análisis de texto en R
Instrucciones del ejercicio
- Tokeniza los tuits en
twitter_data. Nombra la columna con las palabras tokenizadas comoword. - Elimina las stop words predeterminadas del
twitter_datatokenizado. - Filtra para quedarte solo con las quejas.
- Calcula los recuentos de palabras usando el texto tokenizado y limpio y ordénalos en orden descendente por recuento.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
tidy_twitter <- twitter_data %>%
# Tokenize the twitter data
___(___, ___) %>%
# Remove stop words
anti_join(stop_words)
tidy_twitter %>%
# Filter to keep complaints only
___(___ == ___) %>%
# Compute word counts and arrange in descending order
___(___) %>%
___(___)