Explora un corpus en R

Una compañera ha preparado un corpus de 20 documentos sobre crudo, llamado crude. Esto es solo una muestra de varios miles de artículos que recibirás la próxima semana. Para prepararte para analizar estos textos, has decidido explorar su contenido y sus metadatos. Recuerda que en R, un VCorpus contiene tanto meta como content para cada texto. En esta lección, vas a explorar estos dos objetos.

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

Instrucciones del ejercicio

Muestra crude y revisa el resultado.
Imprime el contenido del artículo 10.
Imprime el ID del primer artículo en crude.
Usando el bucle for proporcionado, crea un vector con los ID del corpus.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Print out the corpus
print(___)

# Print the content of the 10th article
crude[[___]]$___

# Find the first ID
crude[[___]]$___$id

# Make a vector of IDs
ids <- c()
for(i in c(1:20)){
  ids <- append(ids, crude[[___]]$___$id)
}

Editar y ejecutar código

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

El capítulo 1 de Introducción al procesamiento del lenguaje natural te prepara para ejecutar tu primer análisis de texto. Explorarás las expresiones regulares y la tokenización, dos de los componentes más comunes en la mayoría de tareas de análisis. Con las expresiones regulares puedes buscar cualquier patrón que se te ocurra, y con la tokenización puedes preparar y limpiar texto para análisis más sofisticados. Este capítulo es necesario para abordar las técnicas que aprenderemos en los capítulos restantes del curso.

Exercise 1: Conceptos básicos de las expresiones regulares Exercise 2: Practica de sintaxis con grep Exercise 3: Explorando funciones de expresiones regulares.Exercise 4: Tokenización Exercise 5: Funciones de tidytext Exercise 6: Tokenización: oraciones Exercise 7: Conceptos básicos de limpieza de texto Exercise 8: Preprocesamiento de texto: eliminar stop words Exercise 9: Preprocesamiento de texto: stemming

En este capítulo aprenderás las formas más comunes y estudiadas de analizar texto. Verás cómo crear un corpus de texto, ampliar una representación de bolsa de palabras hasta una matriz TFIDF y usar métricas de similitud del coseno para determinar cuán similares son dos fragmentos de texto entre sí. Sobre esta base reforzarás tu práctica de NLP antes de entrar en sus aplicaciones en los capítulos 3 y 4.

Exercise 1: Comprender un corpus en R Exercise 2: Explora un corpus en R

Ejercicio actual

Exercise 3: Crear un tibble a partir de un corpus Exercise 4: Crear un corpus Exercise 5: La representación de bolsa de palabras Exercise 6: Practica BoW Exercise 7: Ejemplo de BoW Exercise 8: Matrices dispersas Exercise 9: El TFIDF Exercise 10: Cálculos manuales Exercise 11: Práctica de TFIDF Exercise 12: Similitud coseno Exercise 13: Un ejemplo de cómo fallar en el análisis de texto Exercise 14: Ejemplo de similitud del coseno

El capítulo 3 se centra en dos enfoques habituales de análisis de texto: el modelado de clasificación y el modelado de temas. Si trabajas en proyectos de análisis de texto, inevitablemente usarás uno o ambos métodos. Este capítulo te enseña a realizar ambas técnicas y ofrece ideas sobre cómo abordarlas desde un punto de vista práctico.

Exercise 1: Preparar el texto para el modelado Exercise 2: Preparación de datos Exercise 3: Eliminando términos poco frecuentes Exercise 4: Modelado de clasificación Exercise 5: Ejemplo de modelado de clasificación Exercise 6: Matrices de confusión Exercise 7: TFIDF: tibble vs dtm Exercise 8: Introducción al modelado de temas Exercise 9: Práctica de LDA Exercise 10: Asignar temas a documentos Exercise 11: LDA en la práctica Exercise 12: Probando la perplejidad Exercise 13: Revisar resultados de LDA

En el capítulo 4 cubrimos dos pilares del procesamiento del lenguaje natural: el análisis de sentimiento y las incrustaciones de palabras. Son dos técnicas imprescindibles para quien aprende los fundamentos del análisis de texto. Además, verás brevemente BERT, el etiquetado gramatical (part-of-speech) y el reconocimiento de entidades con nombre. En este curso se han cubierto casi 15 técnicas de análisis diferentes, así que el capítulo 4 termina recapitulando todas las excelentes técnicas que conocerás en este curso.

Exercise 1: Análisis de sentimiento Exercise 2: léxicos de tidytext Exercise 3: Puntajes de sentimiento Exercise 4: Sentimiento y emoción Exercise 5: Word embeddings Exercise 6: Práctica con h2o Exercise 7: word2vec Exercise 8: Análisis adicional de NLP Exercise 9: Repaso de métodos #1 Exercise 10: Repaso de métodos #2 Exercise 11: Conclusión