Palabras vacías y nubes de palabras

Ahora que ya estás metido en la minería de texto, y con una buena copa de chardonnay, toca profundizar. En la última nube de palabras, "chardonnay" dominaba la visualización. Era tan dominante que no podías extraer otras ideas interesantes.

Cambiemos las stop words para incluir "chardonnay" y ver qué otras palabras son comunes pero quedaron tapadas al principio.

Tu espacio de trabajo tiene una versión limpia de tuits sobre chardonnay, pero ahora vamos a eliminar algunos términos poco informativos. Este ejercicio usa content() para mostrarte un tuit concreto y poder compararlo. Recuerda usar dobles corchetes para indexar la lista del corpus.

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

Aplica content() al documento 24 de chardonnay_corp.
Añade "chardonnay" a las stopwords en inglés y asígnalo a stops.
Examina las últimas seis palabras en stops.
Crea cleaned_chardonnay_corp con tm_map() pasando chardonnay_corp, la función removeWords() y, por último, las stopwords stops.
Ahora vuelve a examinar el content del tuit 24 para comparar resultados.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Review a "cleaned" tweet
___(___)

# Add to stopwords
stops <- c(stopwords(kind = 'en'), '___')

# Review last 6 stopwords 
tail(stops)

# Apply to a corpus
cleaned_chardonnay_corp <- ___(chardonnay_corp, ___, ___)

# Review a "cleaned" tweet again
content(cleaned_chardonnay_corp[[24]])

Editar y ejecutar código