Como o texto é um dado não estruturado, é preciso fazer uma certa preparação para colocá-lo em um formato analisável. Neste capítulo, você vai aprender a adicionar estrutura ao texto por meio de tokenização, limpeza e tratamento do texto como dado categórico.

Texto como dado

Dados de tweets sobre companhias aéreas

Resumos agrupados

Contando dados categóricos

Contando tipos de usuários

Resumindo tipos de usuários

Tokenização e limpeza

Tokenização e contagem

Limpeza e contagem

Preparação de Texto

Contagens são úteis, mas visualizações são melhores. Neste capítulo, você vai aplicar o que já sabe de ggplot2 a dados de texto no formato tidy.

Plotando contagens de palavras

Visualizando reclamações

Visualizando não reclamações

Aprimorando gráficos de contagem de palavras

Adicionando stop words personalizadas

Visualizando contagens de palavras usando fatores

Facetando gráficos de contagem de palavras

Contando por produto e reordenando

Visualizando contagens de palavras com facetas

Criando nuvens de palavras

Criando uma nuvem de palavras

Dando um toque de cor

Visualização de Texto

Embora contagens e visualizações de palavras indiquem algo sobre o conteúdo, dá para ir além. Neste capítulo, vamos ultrapassar as contagens e analisar o sentimento ou a valência emocional do texto.

Dicionários de sentimento

Contando os sentimentos do NRC

Visualizando os sentimentos do NRC

Anexando dicionários

Contando sentimentos

Visualizando sentimento

Aprimorando a análise de sentimento

Praticando a reestruturação de dados

Praticando com resumos agrupados

Visualizando o sentimento por tipo de reclamação

Análise de Sentimentos

Neste último capítulo, vamos além das contagens de palavras para revelar os tópicos subjacentes em uma coleção de documentos. Usaremos um modelo de tópicos padrão conhecido como latent Dirichlet allocation.

Latent Dirichlet allocation

Tópicos como probabilidades de palavras

Resumindo tópicos

Visualizando tópicos

Matrizes termo-documento

Criando uma DTM

Avaliando um DTM como matriz

Executando modelos de tópicos

Ajustando uma LDA

Organizando a saída do LDA

Comparando a saída do LDA

Interpretando tópicos

Nomeando três tópicos

Nomeando quatro tópicos

Encerramento

Modelagem de Tópicos

Airline tweets

Roomba reviews

De redes sociais a avaliações de produtos, texto é um tipo de dado cada vez mais importante em várias aplicações, incluindo análises de marketing. Em muitos casos, o texto está substituindo outras formas de dados não estruturados por ser barato e atual. Porém, para aproveitar tudo o que o texto oferece, você precisa saber como pensar sobre ele, limpá-lo, resumir e modelar. Neste curso, você vai usar as ferramentas tidy mais recentes para começar a trabalhar com texto de forma rápida e fácil. Você vai aprender a preparar e visualizar texto, realizar análise de sentimentos e executar e interpretar modelos de tópicos.

Introduction to the Tidyverse

Descubra como analisar dados de texto com o tidy em R: análise de sentimento, modelagem de tópicos e visualização.

Introdução à Análise de Texto em R

Analise dados de texto no R usando o framework Tidy.

Análise de marketing in R

Mineração de texto in R

Tokenização e contagem

Introdução à Análise de Texto em R

Instruções do exercício

Exercício interativo prático