Prática com LDA

Você está interessado nos temas comuns em torno do personagem Napoleão no seu novo livro favorito, A Revolução dos Bichos. Napoleão é um porco que convence seus camaradas a derrubar seus líderes humanos. Ele também acaba se tornando o novo líder da Granja dos Bichos.

Você extraiu todas as frases que mencionam o nome de Napoleão, pig_sentences, e criou uma versão tokenizada dessas frases com as stop words removidas e stemming concluído, pig_tokens. Execute LDA nessas frases e revise as palavras mais frequentes associadas a alguns dos tópicos.

Este exercício faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Ver curso

Instruções do exercício

Execute LDA em pig_matrix identificando 10 tópicos. Defina a semente aleatória como 1111 para reprodutibilidade.
Extraia a matriz beta dos resultados.
Filtre a matriz beta apenas para o tópico 2 e ordene os valores por beta em ordem decrescente.
Filtre a matriz beta apenas para o tópico 3 e ordene os valores por beta em ordem decrescente.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

library(topicmodels)
# Perform Topic Modeling
sentence_lda <-
  ___(___, k = ___, method = 'Gibbs', control = list(seed = ___))
# Extract the beta matrix 
sentence_betas <- ___(sentence_lda, matrix = "___")

# Topic #2
sentence_betas %>%
  ___(topic == ___) %>%
  arrange(-___)
# Topic #3
sentence_betas %>%
  ___(topic == ___) %>%
  arrange(-___)

Editar e executar o código

Introdução ao Processamento de Linguagem Natural em R

IntermediárioNível de habilidade

4.8+

33 reviews

No Capítulo 4, cobrimos dois pilares do processamento de linguagem natural: análise de sentimentos e word embeddings. Essas são duas técnicas essenciais para quem está aprendendo os fundamentos de análise de texto. Além disso, você vai aprender brevemente sobre BERT, marcação de classe gramatical (part-of-speech tagging) e reconhecimento de entidades nomeadas. Quase 15 técnicas de análise diferentes foram abordadas neste curso, então o Capítulo 4 termina recapitulando todas as ótimas técnicas que você conhecerá aqui.

Exercise 1: Análise de sentimento Exercise 2: lexicons do tidytext Exercise 3: Scores de sentimento Exercise 4: Sentimento e emoção Exercise 5: Word embeddings Exercise 6: Prática com h2o Exercise 7: word2vec Exercise 8: Análises adicionais de NLP Exercise 9: Revisando métodos #1 Exercise 10: Revisão de métodos #2 Exercise 11: Conclusão