Matrices dispersas

En la lección en vídeo aprendiste sobre las matrices dispersas. Las matrices dispersas pueden convertirse en una pesadilla computacional a medida que crece el número de documentos de texto y el número de palabras únicas. Crear representaciones de palabras con tuits puede generar matrices dispersas con facilidad porque se usan emojis, jerga, siglas y otras formas de lenguaje.

En este ejercicio, recorrerás los pasos para calcular cuán disperso es el conjunto de datos de tuits en ruso. Ten en cuenta que este es un ejemplo pequeño de lo rápido que el análisis de texto puede convertirse en un gran problema computacional.

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Tokenize and remove stop words
tidy_tweets <- russian_tweets %>%
  ___(word, content) %>%
  ___(stop_words)
# Count by word
unique_words <- tidy_tweets %>%
  count(___)

Editar y ejecutar código

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

El capítulo 1 de Introducción al procesamiento del lenguaje natural te prepara para ejecutar tu primer análisis de texto. Explorarás las expresiones regulares y la tokenización, dos de los componentes más comunes en la mayoría de tareas de análisis. Con las expresiones regulares puedes buscar cualquier patrón que se te ocurra, y con la tokenización puedes preparar y limpiar texto para análisis más sofisticados. Este capítulo es necesario para abordar las técnicas que aprenderemos en los capítulos restantes del curso.

Exercise 1: Conceptos básicos de las expresiones regulares Exercise 2: Practica de sintaxis con grep Exercise 3: Explorando funciones de expresiones regulares.Exercise 4: Tokenización Exercise 5: Funciones de tidytext Exercise 6: Tokenización: oraciones Exercise 7: Conceptos básicos de limpieza de texto Exercise 8: Preprocesamiento de texto: eliminar stop words Exercise 9: Preprocesamiento de texto: stemming

En este capítulo aprenderás las formas más comunes y estudiadas de analizar texto. Verás cómo crear un corpus de texto, ampliar una representación de bolsa de palabras hasta una matriz TFIDF y usar métricas de similitud del coseno para determinar cuán similares son dos fragmentos de texto entre sí. Sobre esta base reforzarás tu práctica de NLP antes de entrar en sus aplicaciones en los capítulos 3 y 4.

Exercise 1: Comprender un corpus en R Exercise 2: Explora un corpus en R Exercise 3: Crear un tibble a partir de un corpus Exercise 4: Crear un corpus Exercise 5: La representación de bolsa de palabras Exercise 6: Practica BoW Exercise 7: Ejemplo de BoW Exercise 8: Matrices dispersas

Ejercicio actual

Exercise 9: El TFIDF Exercise 10: Cálculos manuales Exercise 11: Práctica de TFIDF Exercise 12: Similitud coseno Exercise 13: Un ejemplo de cómo fallar en el análisis de texto Exercise 14: Ejemplo de similitud del coseno

El capítulo 3 se centra en dos enfoques habituales de análisis de texto: el modelado de clasificación y el modelado de temas. Si trabajas en proyectos de análisis de texto, inevitablemente usarás uno o ambos métodos. Este capítulo te enseña a realizar ambas técnicas y ofrece ideas sobre cómo abordarlas desde un punto de vista práctico.

Exercise 1: Preparar el texto para el modelado Exercise 2: Preparación de datos Exercise 3: Eliminando términos poco frecuentes Exercise 4: Modelado de clasificación Exercise 5: Ejemplo de modelado de clasificación Exercise 6: Matrices de confusión Exercise 7: TFIDF: tibble vs dtm Exercise 8: Introducción al modelado de temas Exercise 9: Práctica de LDA Exercise 10: Asignar temas a documentos Exercise 11: LDA en la práctica Exercise 12: Probando la perplejidad Exercise 13: Revisar resultados de LDA

En el capítulo 4 cubrimos dos pilares del procesamiento del lenguaje natural: el análisis de sentimiento y las incrustaciones de palabras. Son dos técnicas imprescindibles para quien aprende los fundamentos del análisis de texto. Además, verás brevemente BERT, el etiquetado gramatical (part-of-speech) y el reconocimiento de entidades con nombre. En este curso se han cubierto casi 15 técnicas de análisis diferentes, así que el capítulo 4 termina recapitulando todas las excelentes técnicas que conocerás en este curso.

Exercise 1: Análisis de sentimiento Exercise 2: léxicos de tidytext Exercise 3: Puntajes de sentimiento Exercise 4: Sentimiento y emoción Exercise 5: Word embeddings Exercise 6: Práctica con h2o Exercise 7: word2vec Exercise 8: Análisis adicional de NLP Exercise 9: Repaso de métodos #1 Exercise 10: Repaso de métodos #2 Exercise 11: Conclusión