Preparação de dados
Durante a eleição dos EUA em 2016, bots russos no Twitter foram usados para distribuir constantemente retórica política tanto para democratas quanto para republicanos. Você recebeu um conjunto de dados desses tweets chamado russian_tweets. Você decidiu classificar esses tweets como de inclinação à esquerda (democratas) ou à direita (republicanos). Antes de construir um modelo de classificação, você precisa limpar e preparar o texto para modelagem.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em R
Instruções do exercício
- Finalize o processo de tokenização aplicando stemming aos tokens.
- Use
cast_dtm()para criar uma matriz documento-termo. - Aplique ponderação tf-idf à matriz documento-termo.
- Imprima a matriz.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Stem the tokens
russian_tokens <- russian_tweets %>%
unnest_tokens(output = "word", token = "words", input = content) %>%
anti_join(stop_words) %>%
___(word = ___(word))
# Create a document term matrix using TFIDF weighting
tweet_matrix <- russian_tokens %>%
count(tweet_id, word) %>%
___(document = ___, term = ___,
value = n, weighting = tm::___)
# Print the matrix details
___