Todo sobre las stop words
A menudo hay palabras muy frecuentes que aportan poca información. A estas se les llama stop words y puede que quieras retirarlas del análisis. Algunas stop words comunes en inglés incluyen "I", "she'll", "the", etc. En el paquete tm hay 174 stop words comunes en inglés (¡las imprimirás en este ejercicio!).
Cuando haces un análisis, probablemente tendrás que ampliar esta lista. En nuestro ejemplo de tuits sobre café, todos los tuits contienen "coffee", así que es importante eliminar esa palabra además de las stop words comunes. Dejar "coffee" no aporta información y hará que se sobrevalore en un análisis de frecuencias.
Usar la función c() te permite añadir palabras nuevas a la lista de stop words. Por ejemplo, lo siguiente añadiría "word1" y "word2" a la lista predeterminada de stop words en inglés:
all_stops <- c("word1", "word2", stopwords("en"))
Una vez tengas una lista de stop words que tenga sentido, usarás la función removeWords() sobre tu texto. removeWords() recibe dos argumentos: el objeto de text al que se aplica y la lista de palabras a eliminar.
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
- Revisa las stop words estándar llamando a
stopwords("en"). - Elimina las stopwords "en" de
text. - Añade "coffee" y "bean" a las stop words estándar, asignando el resultado a
new_stops. - Elimina las stopwords personalizadas,
new_stops, detext.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
## text is preloaded into your workspace
# List standard English stop words
___
# Print text without standard stop words
removeWords(___, ___("___"))
# Add "coffee" and "bean" to the list: new_stops
new_stops <- c("___", "___", ___)
# Remove stop words from text
___