Matrices dispersas
En la lección en vídeo aprendiste sobre las matrices dispersas. Las matrices dispersas pueden convertirse en una pesadilla computacional a medida que crece el número de documentos de texto y el número de palabras únicas. Crear representaciones de palabras con tuits puede generar matrices dispersas con facilidad porque se usan emojis, jerga, siglas y otras formas de lenguaje.
En este ejercicio, recorrerás los pasos para calcular cuán disperso es el conjunto de datos de tuits en ruso. Ten en cuenta que este es un ejemplo pequeño de lo rápido que el análisis de texto puede convertirse en un gran problema computacional.
Este ejercicio forma parte del curso
Introducción al procesamiento del lenguaje natural en R
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Tokenize and remove stop words
tidy_tweets <- russian_tweets %>%
___(word, content) %>%
___(stop_words)
# Count by word
unique_words <- tidy_tweets %>%
count(___)