Comece agoraComece grátis

Preparação de dados

Durante a eleição dos EUA em 2016, bots russos no Twitter foram usados para distribuir constantemente retórica política tanto para democratas quanto para republicanos. Você recebeu um conjunto de dados desses tweets chamado russian_tweets. Você decidiu classificar esses tweets como de inclinação à esquerda (democratas) ou à direita (republicanos). Antes de construir um modelo de classificação, você precisa limpar e preparar o texto para modelagem.

Este exercicio faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Ver curso

Instruções do exercicio

  • Finalize o processo de tokenização aplicando stemming aos tokens.
  • Use cast_dtm() para criar uma matriz documento-termo.
  • Aplique ponderação tf-idf à matriz documento-termo.
  • Imprima a matriz.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Stem the tokens
russian_tokens <- russian_tweets %>%
  unnest_tokens(output = "word", token = "words", input = content) %>%
  anti_join(stop_words) %>%
  ___(word = ___(word))

# Create a document term matrix using TFIDF weighting
tweet_matrix <- russian_tokens %>%
  count(tweet_id, word) %>%
  ___(document = ___, term = ___,
           value = n, weighting = tm::___)

# Print the matrix details 
___
Editar e Executar Código