Un bocado rápido de minería de texto
A veces podemos deducir la intención del autor y las ideas principales solo con mirar las palabras más comunes.
En esencia, la minería de texto con bag-of-words es una forma de contar términos, o n-grams, en una colección de documentos. Fíjate en las siguientes frases, que hemos guardado en text y están disponibles en tu espacio de trabajo:
text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."
¡Contar manualmente las palabras de las frases anteriores es un fastidio! Por suerte, el paquete qdap ofrece una alternativa mejor. Puedes encontrar fácilmente los 4 términos más frecuentes (incluyendo empates) en text llamando a la función freq_terms y especificando 4.
frequent_terms <- freq_terms(text, 4)
El objeto frequent_terms almacena todas las palabras únicas y su recuento. Luego puedes crear un gráfico de barras simplemente llamando a la función plot sobre el objeto frequent_terms.
plot(frequent_terms)
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
Hemos creado un objeto en tu espacio de trabajo llamado new_text que contiene varias frases.
- Carga el paquete
qdap. - Imprime
new_texten la consola. - Crea
term_countcon los 10 términos más frecuentes denew_text. - Representa un gráfico de barras con los resultados de
term_count.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load qdap
___
# Print new_text to the console
new_text
# Find the 10 most frequent terms: term_count
term_count <- ___
# Plot term_count
___