ComenzarEmpieza gratis

Preparación de datos

Durante las elecciones de EE. UU. de 2016, bots rusos de Twitter se usaron para difundir de forma constante mensajes políticos tanto a demócratas como a republicanos. Tienes un conjunto de datos con esos tuits llamado russian_tweets. Has decidido clasificar estos tuits según su orientación: de izquierdas (demócratas) o de derechas (republicanos). Antes de poder crear un modelo de clasificación, necesitas limpiar y preparar el texto para el modelado.

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

Ver curso

Instrucciones del ejercicio

  • Finaliza el proceso de tokenización aplicando stemming a los tokens.
  • Usa cast_dtm() para crear una matriz documento-término.
  • Aplica una ponderación tfidf a la matriz documento-término.
  • Imprime la matriz.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Stem the tokens
russian_tokens <- russian_tweets %>%
  unnest_tokens(output = "word", token = "words", input = content) %>%
  anti_join(stop_words) %>%
  ___(word = ___(word))

# Create a document term matrix using TFIDF weighting
tweet_matrix <- russian_tokens %>%
  count(tweet_id, word) %>%
  ___(document = ___, term = ___,
           value = n, weighting = tm::___)

# Print the matrix details 
___
Editar y ejecutar código