Un ejemplo de cómo fallar en el análisis de texto
Al principio, hablaste del poder de eliminar las stop words antes de hacer análisis de texto. En este último capítulo, revisaste el uso de la similitud del coseno para identificar textos que se parecen entre sí.
En este ejercicio, vas a explorar la posibilidad muy real de usar mal el análisis de texto. Calcularás similitudes del coseno para los capítulos del libro Animal Farm, sin eliminar las stop-words.
Este ejercicio forma parte del curso
Introducción al procesamiento del lenguaje natural en R
Instrucciones del ejercicio
- Revisa el código proporcionado para crear los recuentos de palabras. Esto ya está hecho por ti.
- Usando la función
pairwise_similarity()dewidyr, calcula las similitudes del coseno para cada capítulo en la columnachapter. - Ordena los resultados con los valores de
similaritymás altos primero. - Calcula la media (
mean) de los valores desimilarity.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create word counts
animal_farm_counts <- animal_farm %>%
unnest_tokens(word, text_column) %>%
count(chapter, word)
# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
___(___, ___, n) %>%
arrange(desc(___))
# Print the mean of the similarity values
comparisons %>%
summarize(mean = ___(___))