Matrizes esparsas
Na videoaula, você aprendeu sobre matrizes esparsas. Elas podem se tornar um pesadelo computacional conforme aumentam o número de documentos de texto e o número de palavras únicas. Representar palavras em tweets pode facilmente gerar matrizes esparsas porque emojis, gírias, siglas e outras formas de linguagem são usadas.
Neste exercício, você vai percorrer as etapas para calcular o quão esparso é o conjunto de dados de tweets em russo. Observe que este é um pequeno exemplo de como a análise de texto pode rapidamente se tornar um grande problema computacional.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em R
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Tokenize and remove stop words
tidy_tweets <- russian_tweets %>%
___(word, content) %>%
___(stop_words)
# Count by word
unique_words <- tidy_tweets %>%
count(___)