Funciones de limpieza comunes de tm

Ahora que conoces dos formas de crear un corpus, puedes centrarte en limpiar, o preprocesar, el texto. Primero limpiarás un pequeño fragmento de texto; luego pasarás a corpus más grandes.

En el enfoque bag of words para minería de texto, la limpieza ayuda a agrupar términos. Por ejemplo, puede tener sentido que las palabras "miner", "mining" y "mine" se consideren un mismo término. Los pasos concretos de preprocesamiento variarán según el proyecto. Por ejemplo, las palabras usadas en tweets son muy distintas de las de documentos legales, así que el proceso de limpieza también puede ser bastante diferente.

Las funciones de preprocesamiento más comunes incluyen:

tolower(): convierte todos los caracteres a minúsculas
removePunctuation(): elimina todos los signos de puntuación
removeNumbers(): elimina los números
stripWhitespace(): elimina espacios en blanco sobrantes

tolower() forma parte de R base, mientras que las otras tres funciones provienen del paquete tm. A partir de ahora, cargaremos tm y qdap por ti cuando hagan falta. Cada vez que introduzcamos un paquete nuevo, te pediremos que lo cargues la primera vez.

La variable text, que contiene una frase, aparece en el script.

Este ejercicio forma parte del curso

Minería de texto con Bag-of-Words en R

Ver curso

Instrucciones del ejercicio

Aplica cada una de las siguientes funciones a text, imprimiendo simplemente los resultados en la consola:

- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Create the object: text
text <- "She woke up at       6 A.M. It\'s so early!  She was only 10% awake and began drinking coffee in front of her computer."

# Make lowercase
___

# Remove punctuation
____

# Remove numbers
___

# Remove whitespace
___

Editar y ejecutar código