Explore um corpus em R

Uma pessoa da sua equipe preparou um corpus com 20 documentos sobre petróleo bruto, chamado crude. Este é apenas uma amostra de vários milhares de artigos que você receberá na próxima semana. Para se preparar para a análise de texto nesses documentos, você decidiu explorar seu conteúdo e metadados. Lembre-se de que, em R, um VCorpus contém tanto meta quanto content de cada texto. Nesta lição, você vai explorar esses dois objetos.

Este exercicio faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Instruções do exercicio

Imprima crude e revise a saída.
Imprima o conteúdo do 10º artigo.
Imprima o ID do primeiro artigo em crude.
Usando o laço for fornecido, crie um vetor com os IDs do corpus.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Print out the corpus
print(___)

# Print the content of the 10th article
crude[[___]]$___

# Find the first ID
crude[[___]]$___$id

# Make a vector of IDs
ids <- c()
for(i in c(1:20)){
  ids <- append(ids, crude[[___]]$___$id)
}

Editar e Executar Código

Este exercicio faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

IntermediárioNível de habilidade

4.8+

Comece o curso gratuitamente

O Capítulo 1 de Introdução ao Processamento de Linguagem Natural prepara você para executar sua primeira análise de texto. Você vai explorar expressões regulares e tokenização, dois componentes muito comuns na maioria das tarefas de análise. Com expressões regulares, você pode buscar qualquer padrão que imaginar e, com tokenização, preparar e limpar o texto para análises mais sofisticadas. Este capítulo é essencial para enfrentar as técnicas que veremos nos demais capítulos do curso.

Exercise 1: Noções básicas de expressões regulares Exercise 2: Praticando a sintaxe com grep Exercise 3: Explorando funções de expressões regulares.Exercise 4: Tokenização Exercise 5: funções do tidytext Exercise 6: Tokenização: frases Exercise 7: Noções básicas de limpeza de texto Exercise 8: Pré-processamento de texto: remover stop words Exercise 9: Pré-processamento de texto: Stemming

Neste capítulo, você vai aprender as formas mais comuns e estudadas de analisar texto. Você verá como criar um corpus de textos, expandir uma representação bag-of-words para uma matriz TFIDF e usar métricas de similaridade do cosseno para determinar o quão semelhantes dois textos são entre si. Você vai consolidar seus fundamentos para praticar NLP antes de mergulhar nas aplicações de NLP nos capítulos 3 e 4.

Exercise 1: Entendendo um corpus em R Exercise 2: Explore um corpus em R

Exercicio Atual

Exercise 3: Criando um tibble a partir de um corpus Exercise 4: Criando um corpus Exercise 5: A representação bag-of-words Exercise 6: Praticando BoW Exercise 7: Exemplo de BoW Exercise 8: Matrizes esparsas Exercise 9: O TFIDF Exercise 10: Cálculos manuais Exercise 11: Prática de TFIDF Exercise 12: Similaridade cosseno Exercise 13: Um exemplo de falha na análise de texto Exercise 14: Exemplo de similaridade cosseno

O Capítulo 3 foca em duas abordagens comuns de análise de texto: modelagem de classificação e modelagem de tópicos. Se você trabalha com projetos de análise de texto, inevitavelmente usará um ou ambos os métodos. Este capítulo mostra como realizar as duas técnicas e traz insights sobre como abordá-las de forma prática.

Exercise 1: Preparando o texto para modelagem Exercise 2: Preparação de dados Exercise 3: Removendo termos esparsos Exercise 4: Modelagem de classificação Exercise 5: Exemplo de modelagem de classificação Exercise 6: Matrizes de confusão Exercise 7: Tibble TFIDF vs dtm Exercise 8: Introdução ao modelagem de tópicos Exercise 9: Prática com LDA Exercise 10: Atribuindo tópicos a documentos Exercise 11: LDA na prática Exercise 12: Testando perplexidade Exercise 13: Revisando os resultados do LDA

No Capítulo 4, cobrimos dois pilares do processamento de linguagem natural: análise de sentimentos e word embeddings. Essas são duas técnicas essenciais para quem está aprendendo os fundamentos de análise de texto. Além disso, você vai aprender brevemente sobre BERT, marcação de classe gramatical (part-of-speech tagging) e reconhecimento de entidades nomeadas. Quase 15 técnicas de análise diferentes foram abordadas neste curso, então o Capítulo 4 termina recapitulando todas as ótimas técnicas que você conhecerá aqui.

Exercise 1: Análise de sentimento Exercise 2: lexicons do tidytext Exercise 3: Scores de sentimento Exercise 4: Sentimento e emoção Exercise 5: Word embeddings Exercise 6: Prática com h2o Exercise 7: word2vec Exercise 8: Análises adicionais de NLP Exercise 9: Revisando métodos #1 Exercise 10: Revisão de métodos #2 Exercise 11: Conclusão