Palabras vacías y nubes de palabras
Ahora que ya estás metido en la minería de texto, y con una buena copa de chardonnay, toca profundizar. En la última nube de palabras, "chardonnay" dominaba la visualización. Era tan dominante que no podías extraer otras ideas interesantes.
Cambiemos las stop words para incluir "chardonnay" y ver qué otras palabras son comunes pero quedaron tapadas al principio.
Tu espacio de trabajo tiene una versión limpia de tuits sobre chardonnay, pero ahora vamos a eliminar algunos términos poco informativos. Este ejercicio usa content() para mostrarte un tuit concreto y poder compararlo. Recuerda usar dobles corchetes para indexar la lista del corpus.
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
- Aplica
content()al documento 24 dechardonnay_corp. - Añade
"chardonnay"a las stopwords en inglés y asígnalo astops. - Examina las últimas seis palabras en
stops. - Crea
cleaned_chardonnay_corpcontm_map()pasandochardonnay_corp, la funciónremoveWords()y, por último, las stopwordsstops. - Ahora vuelve a examinar el
contentdel tuit24para comparar resultados.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Review a "cleaned" tweet
___(___)
# Add to stopwords
stops <- c(stopwords(kind = 'en'), '___')
# Review last 6 stopwords
tail(stops)
# Apply to a corpus
cleaned_chardonnay_corp <- ___(chardonnay_corp, ___, ___)
# Review a "cleaned" tweet again
content(cleaned_chardonnay_corp[[24]])