Testando perplexidade

Você recebeu um conjunto de dados cheio de tweets enviados por bots durante a eleição dos EUA de 2016. Sua liderança identificou dois tipos de contas de interesse, Left e Right. Você foi solicitado a realizar modelagem de tópicos nos tweets dos bots Right. Além disso, a intenção é resumir o conteúdo desses tweets por meio de modelagem de tópicos. Execute a modelagem de tópicos com 5, 15 e 50 tópicos para ter uma ideia geral de quantos tópicos existem nos dados.

Este exercicio faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

library(topicmodels)
# Setup train and test data
sample_size <- floor(0.90 * nrow(right_matrix))
set.seed(1111)
train_ind <- sample(nrow(right_matrix), size = sample_size)
train <- right_matrix[train_ind, ]
test <- right_matrix[-train_ind, ]

# Peform topic modeling 
lda_model <- LDA(___, k = ___, method = ___,
                 control = list(seed = 1111))
# Train
___(lda_model, newdata = ___) 
# Test
___(lda_model, newdata = ___)

Editar e Executar Código

Este exercicio faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

IntermediárioNível de habilidade

4.8+

Comece o curso gratuitamente

O Capítulo 1 de Introdução ao Processamento de Linguagem Natural prepara você para executar sua primeira análise de texto. Você vai explorar expressões regulares e tokenização, dois componentes muito comuns na maioria das tarefas de análise. Com expressões regulares, você pode buscar qualquer padrão que imaginar e, com tokenização, preparar e limpar o texto para análises mais sofisticadas. Este capítulo é essencial para enfrentar as técnicas que veremos nos demais capítulos do curso.

Exercise 1: Noções básicas de expressões regulares Exercise 2: Praticando a sintaxe com grep Exercise 3: Explorando funções de expressões regulares.Exercise 4: Tokenização Exercise 5: funções do tidytext Exercise 6: Tokenização: frases Exercise 7: Noções básicas de limpeza de texto Exercise 8: Pré-processamento de texto: remover stop words Exercise 9: Pré-processamento de texto: Stemming

Neste capítulo, você vai aprender as formas mais comuns e estudadas de analisar texto. Você verá como criar um corpus de textos, expandir uma representação bag-of-words para uma matriz TFIDF e usar métricas de similaridade do cosseno para determinar o quão semelhantes dois textos são entre si. Você vai consolidar seus fundamentos para praticar NLP antes de mergulhar nas aplicações de NLP nos capítulos 3 e 4.

Exercise 1: Entendendo um corpus em R Exercise 2: Explore um corpus em R Exercise 3: Criando um tibble a partir de um corpus Exercise 4: Criando um corpus Exercise 5: A representação bag-of-words Exercise 6: Praticando BoW Exercise 7: Exemplo de BoW Exercise 8: Matrizes esparsas Exercise 9: O TFIDF Exercise 10: Cálculos manuais Exercise 11: Prática de TFIDF Exercise 12: Similaridade cosseno Exercise 13: Um exemplo de falha na análise de texto Exercise 14: Exemplo de similaridade cosseno

O Capítulo 3 foca em duas abordagens comuns de análise de texto: modelagem de classificação e modelagem de tópicos. Se você trabalha com projetos de análise de texto, inevitavelmente usará um ou ambos os métodos. Este capítulo mostra como realizar as duas técnicas e traz insights sobre como abordá-las de forma prática.

Exercise 1: Preparando o texto para modelagem Exercise 2: Preparação de dados Exercise 3: Removendo termos esparsos Exercise 4: Modelagem de classificação Exercise 5: Exemplo de modelagem de classificação Exercise 6: Matrizes de confusão Exercise 7: Tibble TFIDF vs dtm Exercise 8: Introdução ao modelagem de tópicos Exercise 9: Prática com LDA Exercise 10: Atribuindo tópicos a documentos Exercise 11: LDA na prática Exercise 12: Testando perplexidade

Exercicio Atual

Exercise 13: Revisando os resultados do LDA

No Capítulo 4, cobrimos dois pilares do processamento de linguagem natural: análise de sentimentos e word embeddings. Essas são duas técnicas essenciais para quem está aprendendo os fundamentos de análise de texto. Além disso, você vai aprender brevemente sobre BERT, marcação de classe gramatical (part-of-speech tagging) e reconhecimento de entidades nomeadas. Quase 15 técnicas de análise diferentes foram abordadas neste curso, então o Capítulo 4 termina recapitulando todas as ótimas técnicas que você conhecerá aqui.

Exercise 1: Análise de sentimento Exercise 2: lexicons do tidytext Exercise 3: Scores de sentimento Exercise 4: Sentimento e emoção Exercise 5: Word embeddings Exercise 6: Prática com h2o Exercise 7: word2vec Exercise 8: Análises adicionais de NLP Exercise 9: Revisando métodos #1 Exercise 10: Revisão de métodos #2 Exercise 11: Conclusão