Atribuindo tópicos a documentos

Criar modelos LDA não serve para nada se você não conseguir interpretar e usar os resultados. Você recebeu os resultados da execução de um modelo LDA, sentence_lda, sobre um conjunto de sentenças, pig_sentences. Você precisa explorar as matrizes beta, palavras principais por tópico, e gamma, tópicos principais por documento, para entender completamente os resultados de qualquer análise LDA.

Com base no que você sabe sobre essas duas matrizes, extraia os resultados para um tópico específico e veja se a saída corresponde ao esperado.

Este exercicio faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Ver curso

Instruções do exercicio

Crie um tibble para as matrizes beta e gamma.
Explore o tópico 5 olhando as palavras de topo do tópico 5, organizando os resultados em ordem decrescente de beta.
Explore o tópico 5 vendo quais sentenças mais se alinham a ele, organizando os resultados em ordem decrescente de gamma.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Extract the beta and gamma matrices
sentence_betas <- tidy(sentence_lda, ___ = "___")
sentence_gammas <- tidy(sentence_lda, ___ = "___")

# Explore Topic 5 Betas
___ %>%
  ___(topic == ___) %>%
  arrange(-___)

# Explore Topic 5 Gammas
___ %>%
  ___(topic == ___) %>%
  arrange(-___)

Editar e Executar Código

Introdução ao Processamento de Linguagem Natural em R

IntermediárioNível de habilidade

4.8+

40 reviews

No Capítulo 4, cobrimos dois pilares do processamento de linguagem natural: análise de sentimentos e word embeddings. Essas são duas técnicas essenciais para quem está aprendendo os fundamentos de análise de texto. Além disso, você vai aprender brevemente sobre BERT, marcação de classe gramatical (part-of-speech tagging) e reconhecimento de entidades nomeadas. Quase 15 técnicas de análise diferentes foram abordadas neste curso, então o Capítulo 4 termina recapitulando todas as ótimas técnicas que você conhecerá aqui.

Exercise 1: Análise de sentimento Exercise 2: lexicons do tidytext Exercise 3: Scores de sentimento Exercise 4: Sentimento e emoção Exercise 5: Word embeddings Exercise 6: Prática com h2o Exercise 7: word2vec Exercise 8: Análises adicionais de NLP Exercise 9: Revisando métodos #1 Exercise 10: Revisão de métodos #2 Exercise 11: Conclusão