Funciones de limpieza comunes de tm
Ahora que conoces dos formas de crear un corpus, puedes centrarte en limpiar, o preprocesar, el texto. Primero limpiarás un pequeño fragmento de texto; luego pasarás a corpus más grandes.
En el enfoque bag of words para minería de texto, la limpieza ayuda a agrupar términos. Por ejemplo, puede tener sentido que las palabras "miner", "mining" y "mine" se consideren un mismo término. Los pasos concretos de preprocesamiento variarán según el proyecto. Por ejemplo, las palabras usadas en tweets son muy distintas de las de documentos legales, así que el proceso de limpieza también puede ser bastante diferente.
Las funciones de preprocesamiento más comunes incluyen:
tolower(): convierte todos los caracteres a minúsculasremovePunctuation(): elimina todos los signos de puntuaciónremoveNumbers(): elimina los númerosstripWhitespace(): elimina espacios en blanco sobrantes
tolower() forma parte de R base, mientras que las otras tres funciones provienen del paquete tm. A partir de ahora, cargaremos tm y qdap por ti cuando hagan falta. Cada vez que introduzcamos un paquete nuevo, te pediremos que lo cargues la primera vez.
La variable text, que contiene una frase, aparece en el script.
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
Aplica cada una de las siguientes funciones a text, imprimiendo simplemente los resultados en la consola:
- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create the object: text
text <- "She woke up at 6 A.M. It\'s so early! She was only 10% awake and began drinking coffee in front of her computer."
# Make lowercase
___
# Remove punctuation
____
# Remove numbers
___
# Remove whitespace
___