Crear un tibble a partir de un corpus

Para seguir explorando el corpus sobre datos de crudo que te pasó un compañero, has decidido crear una canalización para limpiar el texto de los documentos. En lugar de hacerlo con el paquete tm, optas por transformar el corpus en un tibble para poder usar las funciones unnest_tokens(), count() y anti_join() con las que ya estás familiarizado. El corpus crude contiene tanto los metadatos como el texto de cada documento.

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

Instrucciones del ejercicio

Convierte el corpus en un tibble.
Usa names para imprimir los nombres de las columnas.
Tokeniza (por palabra), cuenta y elimina las stop words de la columna text de crude_tibble.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)

crude_counts <- crude_tibble %>%
  # Tokenize by word 
  ___(___, text) %>%
  # Count by word
  ___(word, sort = TRUE) %>%
  # Remove stop words
  ___(stop_words)

Editar y ejecutar código

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

El capítulo 1 de Introducción al procesamiento del lenguaje natural te prepara para ejecutar tu primer análisis de texto. Explorarás las expresiones regulares y la tokenización, dos de los componentes más comunes en la mayoría de tareas de análisis. Con las expresiones regulares puedes buscar cualquier patrón que se te ocurra, y con la tokenización puedes preparar y limpiar texto para análisis más sofisticados. Este capítulo es necesario para abordar las técnicas que aprenderemos en los capítulos restantes del curso.

Exercise 1: Conceptos básicos de las expresiones regulares Exercise 2: Practica de sintaxis con grep Exercise 3: Explorando funciones de expresiones regulares.Exercise 4: Tokenización Exercise 5: Funciones de tidytext Exercise 6: Tokenización: oraciones Exercise 7: Conceptos básicos de limpieza de texto Exercise 8: Preprocesamiento de texto: eliminar stop words Exercise 9: Preprocesamiento de texto: stemming

En este capítulo aprenderás las formas más comunes y estudiadas de analizar texto. Verás cómo crear un corpus de texto, ampliar una representación de bolsa de palabras hasta una matriz TFIDF y usar métricas de similitud del coseno para determinar cuán similares son dos fragmentos de texto entre sí. Sobre esta base reforzarás tu práctica de NLP antes de entrar en sus aplicaciones en los capítulos 3 y 4.

Exercise 1: Comprender un corpus en R Exercise 2: Explora un corpus en R Exercise 3: Crear un tibble a partir de un corpus

Ejercicio actual

Exercise 4: Crear un corpus Exercise 5: La representación de bolsa de palabras Exercise 6: Practica BoW Exercise 7: Ejemplo de BoW Exercise 8: Matrices dispersas Exercise 9: El TFIDF Exercise 10: Cálculos manuales Exercise 11: Práctica de TFIDF Exercise 12: Similitud coseno Exercise 13: Un ejemplo de cómo fallar en el análisis de texto Exercise 14: Ejemplo de similitud del coseno

El capítulo 3 se centra en dos enfoques habituales de análisis de texto: el modelado de clasificación y el modelado de temas. Si trabajas en proyectos de análisis de texto, inevitablemente usarás uno o ambos métodos. Este capítulo te enseña a realizar ambas técnicas y ofrece ideas sobre cómo abordarlas desde un punto de vista práctico.

Exercise 1: Preparar el texto para el modelado Exercise 2: Preparación de datos Exercise 3: Eliminando términos poco frecuentes Exercise 4: Modelado de clasificación Exercise 5: Ejemplo de modelado de clasificación Exercise 6: Matrices de confusión Exercise 7: TFIDF: tibble vs dtm Exercise 8: Introducción al modelado de temas Exercise 9: Práctica de LDA Exercise 10: Asignar temas a documentos Exercise 11: LDA en la práctica Exercise 12: Probando la perplejidad Exercise 13: Revisar resultados de LDA

En el capítulo 4 cubrimos dos pilares del procesamiento del lenguaje natural: el análisis de sentimiento y las incrustaciones de palabras. Son dos técnicas imprescindibles para quien aprende los fundamentos del análisis de texto. Además, verás brevemente BERT, el etiquetado gramatical (part-of-speech) y el reconocimiento de entidades con nombre. En este curso se han cubierto casi 15 técnicas de análisis diferentes, así que el capítulo 4 termina recapitulando todas las excelentes técnicas que conocerás en este curso.

Exercise 1: Análisis de sentimiento Exercise 2: léxicos de tidytext Exercise 3: Puntajes de sentimiento Exercise 4: Sentimiento y emoción Exercise 5: Word embeddings Exercise 6: Práctica con h2o Exercise 7: word2vec Exercise 8: Análisis adicional de NLP Exercise 9: Repaso de métodos #1 Exercise 10: Repaso de métodos #2 Exercise 11: Conclusión