Como el texto es un dato no estructurado, hay que hacer cierta manipulación para llevarlo a un formato que puedas analizar. En este capítulo, aprenderás a añadir estructura al texto mediante la tokenización, la limpieza y el tratamiento del texto como dato categórico.

El texto como datos

Datos de tuits sobre aerolíneas

Resúmenes agrupados

Contar datos categóricos

Contar tipos de usuario

Resumir tipos de usuarios

Tokenización y limpieza

Tokenizar y contar

Limpieza y recuento

Manipulación de texto

Aunque los conteos están bien, las visualizaciones son mejores. En este capítulo, aprenderás a aplicar lo que ya conoces de ggplot2 a datos de texto en formato tidy.

Graficar recuentos de palabras

Visualizar quejas

Visualización de no quejas

Mejorar los gráficos de recuento de palabras

Añadir stop words personalizadas

Visualizar recuentos de palabras usando factores

Facetear gráficos de conteo de palabras

Contar por producto y reordenar

Visualizar recuentos de palabras con facetas

Trazar nubes de palabras

Crear una nube de palabras

Un toque de color

Visualización de texto

Aunque los conteos de palabras y las visualizaciones sugieren algo sobre el contenido, podemos ir más allá. En este capítulo, vamos más allá de los conteos de palabras para analizar el sentimiento o la valencia emocional del texto.

Diccionarios de sentimiento

Contando los sentimientos de NRC

Visualizar los sentimientos de NRC

Anexar diccionarios

Contar sentimiento

Visualizing sentiment

Mejorar el análisis de sentimiento

Practica de reestructuración de datos

Practicar con resúmenes agrupados

Visualizando el sentimiento por tipo de queja

Análisis de sentimiento

En este capítulo final, vamos más allá de los conteos de palabras para descubrir los temas subyacentes en una colección de documentos. Usaremos un modelo de temas estándar conocido como asignación latente de Dirichlet (LDA).

Latent Dirichlet allocation (LDA)

Temas como probabilidades de palabras

Resumir temas

Visualizar temas

Matrices documento-término

Crear una DTM

Evaluar un DTM como matriz

Ejecutar modelos de temas

Ajustar un LDA

Ordenar la salida de LDA

Comparar la salida de LDA

Interpretar temas

Poner nombre a tres temas

Nombrar cuatro temas

Resumen

Modelado de temas

Airline tweets

Roomba reviews

Desde las redes sociales hasta las reseñas de productos, el texto es un tipo de dato cada vez más importante en muchas aplicaciones, incluido el marketing analytics. En muchos casos, el texto está sustituyendo a otras formas de datos no estructurados por ser más barato y estar más actualizado. Pero para aprovechar todo lo que el texto puede ofrecer, necesitas saber cómo pensarlo, limpiarlo, resumirlo y modelarlo. En este curso, usarás las herramientas tidy más recientes para empezar con texto de forma rápida y sencilla. Aprenderás a manipular y visualizar texto, realizar análisis de sentimiento y ejecutar e interpretar modelos de temas.

Introduction to the Tidyverse

Descubre cómo analizar datos de texto con tidy en R: análisis de sentimientos, modelado de temas y visualización.

Resumen

Create Your Free Account