ComenzarEmpieza gratis

Un ejemplo de cómo fallar en el análisis de texto

Al principio, hablaste del poder de eliminar las stop words antes de hacer análisis de texto. En este último capítulo, revisaste el uso de la similitud del coseno para identificar textos que se parecen entre sí.

En este ejercicio, vas a explorar la posibilidad muy real de usar mal el análisis de texto. Calcularás similitudes del coseno para los capítulos del libro Animal Farm, sin eliminar las stop-words.

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

Ver curso

Instrucciones del ejercicio

  • Revisa el código proporcionado para crear los recuentos de palabras. Esto ya está hecho por ti.
  • Usando la función pairwise_similarity() de widyr, calcula las similitudes del coseno para cada capítulo en la columna chapter.
  • Ordena los resultados con los valores de similarity más altos primero.
  • Calcula la media (mean) de los valores de similarity.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create word counts
animal_farm_counts <- animal_farm %>%
  unnest_tokens(word, text_column) %>%
  count(chapter, word)

# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
  ___(___, ___, n) %>%
  arrange(desc(___))

# Print the mean of the similarity values
comparisons %>%
  summarize(mean = ___(___))
Editar y ejecutar código