Criando um corpus

Você criou um tibble chamado russian_tweets que contém cerca de 20.000 tweets gerados automaticamente por bots durante o ciclo eleitoral dos EUA em 2016 para que você possa realizar análise de texto. No entanto, ao avaliar as opções disponíveis para fazer a análise que você escolheu, você acredita que o pacote tm oferece o caminho mais simples. Para conduzir a análise, primeiro é preciso criar um corpus e anexar metadados potencialmente úteis.

Fique atento: estes são dados reais do Twitter e, por isso, sempre há o risco de conterem palavrões ou outro conteúdo ofensivo (neste exercício e em quaisquer exercícios seguintes que também usem dados reais do Twitter).

Este exercício faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Ver curso

Instruções do exercício

Crie um corpus usando a coluna content de russian_tweets.
Anexe as colunas following e followers como metadados a tweet_corpus.
Mostre as primeiras linhas da tabela de metadados.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a corpus
tweet_corpus <- ___(___(russian_tweets$___))

# Attach following and followers
___(tweet_corpus, 'following') <- russian_tweets$___
___(tweet_corpus, 'followers') <- russian_tweets$___

# Review the meta data
head(meta(___))

Editar e executar o código

Introdução ao Processamento de Linguagem Natural em R

IntermediárioNível de habilidade

4.8+

33 reviews

No Capítulo 4, cobrimos dois pilares do processamento de linguagem natural: análise de sentimentos e word embeddings. Essas são duas técnicas essenciais para quem está aprendendo os fundamentos de análise de texto. Além disso, você vai aprender brevemente sobre BERT, marcação de classe gramatical (part-of-speech tagging) e reconhecimento de entidades nomeadas. Quase 15 técnicas de análise diferentes foram abordadas neste curso, então o Capítulo 4 termina recapitulando todas as ótimas técnicas que você conhecerá aqui.

Exercise 1: Análise de sentimento Exercise 2: lexicons do tidytext Exercise 3: Scores de sentimento Exercise 4: Sentimento e emoção Exercise 5: Word embeddings Exercise 6: Prática com h2o Exercise 7: word2vec Exercise 8: Análises adicionais de NLP Exercise 9: Revisando métodos #1 Exercise 10: Revisão de métodos #2 Exercise 11: Conclusão