Preparación de datos

Durante las elecciones de EE. UU. de 2016, bots rusos de Twitter se usaron para difundir de forma constante mensajes políticos tanto a demócratas como a republicanos. Tienes un conjunto de datos con esos tuits llamado russian_tweets. Has decidido clasificar estos tuits según su orientación: de izquierdas (demócratas) o de derechas (republicanos). Antes de poder crear un modelo de clasificación, necesitas limpiar y preparar el texto para el modelado.

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

Instrucciones del ejercicio

Finaliza el proceso de tokenización aplicando stemming a los tokens.
Usa cast_dtm() para crear una matriz documento-término.
Aplica una ponderación tfidf a la matriz documento-término.
Imprime la matriz.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Stem the tokens
russian_tokens <- russian_tweets %>%
  unnest_tokens(output = "word", token = "words", input = content) %>%
  anti_join(stop_words) %>%
  ___(word = ___(word))

# Create a document term matrix using TFIDF weighting
tweet_matrix <- russian_tokens %>%
  count(tweet_id, word) %>%
  ___(document = ___, term = ___,
           value = n, weighting = tm::___)

# Print the matrix details 
___

Editar y ejecutar código

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

IntermedioNivel de habilidad

4.8+

Comienza el curso gratis

El capítulo 1 de Introducción al procesamiento del lenguaje natural te prepara para ejecutar tu primer análisis de texto. Explorarás las expresiones regulares y la tokenización, dos de los componentes más comunes en la mayoría de tareas de análisis. Con las expresiones regulares puedes buscar cualquier patrón que se te ocurra, y con la tokenización puedes preparar y limpiar texto para análisis más sofisticados. Este capítulo es necesario para abordar las técnicas que aprenderemos en los capítulos restantes del curso.

Exercise 1: Conceptos básicos de las expresiones regulares Exercise 2: Practica de sintaxis con grep Exercise 3: Explorando funciones de expresiones regulares.Exercise 4: Tokenización Exercise 5: Funciones de tidytext Exercise 6: Tokenización: oraciones Exercise 7: Conceptos básicos de limpieza de texto Exercise 8: Preprocesamiento de texto: eliminar stop words Exercise 9: Preprocesamiento de texto: stemming

En este capítulo aprenderás las formas más comunes y estudiadas de analizar texto. Verás cómo crear un corpus de texto, ampliar una representación de bolsa de palabras hasta una matriz TFIDF y usar métricas de similitud del coseno para determinar cuán similares son dos fragmentos de texto entre sí. Sobre esta base reforzarás tu práctica de NLP antes de entrar en sus aplicaciones en los capítulos 3 y 4.

Exercise 1: Comprender un corpus en R Exercise 2: Explora un corpus en R Exercise 3: Crear un tibble a partir de un corpus Exercise 4: Crear un corpus Exercise 5: La representación de bolsa de palabras Exercise 6: Practica BoW Exercise 7: Ejemplo de BoW Exercise 8: Matrices dispersas Exercise 9: El TFIDF Exercise 10: Cálculos manuales Exercise 11: Práctica de TFIDF Exercise 12: Similitud coseno Exercise 13: Un ejemplo de cómo fallar en el análisis de texto Exercise 14: Ejemplo de similitud del coseno

El capítulo 3 se centra en dos enfoques habituales de análisis de texto: el modelado de clasificación y el modelado de temas. Si trabajas en proyectos de análisis de texto, inevitablemente usarás uno o ambos métodos. Este capítulo te enseña a realizar ambas técnicas y ofrece ideas sobre cómo abordarlas desde un punto de vista práctico.

Exercise 1: Preparar el texto para el modelado Exercise 2: Preparación de datos

Ejercicio actual

Exercise 3: Eliminando términos poco frecuentes Exercise 4: Modelado de clasificación Exercise 5: Ejemplo de modelado de clasificación Exercise 6: Matrices de confusión Exercise 7: TFIDF: tibble vs dtm Exercise 8: Introducción al modelado de temas Exercise 9: Práctica de LDA Exercise 10: Asignar temas a documentos Exercise 11: LDA en la práctica Exercise 12: Probando la perplejidad Exercise 13: Revisar resultados de LDA

En el capítulo 4 cubrimos dos pilares del procesamiento del lenguaje natural: el análisis de sentimiento y las incrustaciones de palabras. Son dos técnicas imprescindibles para quien aprende los fundamentos del análisis de texto. Además, verás brevemente BERT, el etiquetado gramatical (part-of-speech) y el reconocimiento de entidades con nombre. En este curso se han cubierto casi 15 técnicas de análisis diferentes, así que el capítulo 4 termina recapitulando todas las excelentes técnicas que conocerás en este curso.

Exercise 1: Análisis de sentimiento Exercise 2: léxicos de tidytext Exercise 3: Puntajes de sentimiento Exercise 4: Sentimiento y emoción Exercise 5: Word embeddings Exercise 6: Práctica con h2o Exercise 7: word2vec Exercise 8: Análisis adicional de NLP Exercise 9: Repaso de métodos #1 Exercise 10: Repaso de métodos #2 Exercise 11: Conclusión