Criando um tibble a partir de um corpus

Para explorar melhor o corpus sobre dados de petróleo bruto que você recebeu de um colega, você decidiu criar um pipeline para limpar o texto contido nos documentos. Em vez de usar o pacote tm, você optou por transformar o corpus em um tibble para poder usar as funções unnest_tokens(), count() e anti_join() com as quais você já está familiarizado. O corpus crude contém tanto os metadados quanto o texto de cada documento.

Este exercicio faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Instruções do exercicio

Converta o corpus em um tibble.
Use names para imprimir os nomes das colunas.
Tokenize (por palavra), faça a contagem e remova as stop words da coluna text de crude_tibble.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)

crude_counts <- crude_tibble %>%
  # Tokenize by word 
  ___(___, text) %>%
  # Count by word
  ___(word, sort = TRUE) %>%
  # Remove stop words
  ___(stop_words)

Editar e Executar Código

Este exercicio faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

IntermediárioNível de habilidade

4.8+

Comece o curso gratuitamente

O Capítulo 1 de Introdução ao Processamento de Linguagem Natural prepara você para executar sua primeira análise de texto. Você vai explorar expressões regulares e tokenização, dois componentes muito comuns na maioria das tarefas de análise. Com expressões regulares, você pode buscar qualquer padrão que imaginar e, com tokenização, preparar e limpar o texto para análises mais sofisticadas. Este capítulo é essencial para enfrentar as técnicas que veremos nos demais capítulos do curso.

Exercise 1: Noções básicas de expressões regulares Exercise 2: Praticando a sintaxe com grep Exercise 3: Explorando funções de expressões regulares.Exercise 4: Tokenização Exercise 5: funções do tidytext Exercise 6: Tokenização: frases Exercise 7: Noções básicas de limpeza de texto Exercise 8: Pré-processamento de texto: remover stop words Exercise 9: Pré-processamento de texto: Stemming

Neste capítulo, você vai aprender as formas mais comuns e estudadas de analisar texto. Você verá como criar um corpus de textos, expandir uma representação bag-of-words para uma matriz TFIDF e usar métricas de similaridade do cosseno para determinar o quão semelhantes dois textos são entre si. Você vai consolidar seus fundamentos para praticar NLP antes de mergulhar nas aplicações de NLP nos capítulos 3 e 4.

Exercise 1: Entendendo um corpus em R Exercise 2: Explore um corpus em R Exercise 3: Criando um tibble a partir de um corpus

Exercicio Atual

Exercise 4: Criando um corpus Exercise 5: A representação bag-of-words Exercise 6: Praticando BoW Exercise 7: Exemplo de BoW Exercise 8: Matrizes esparsas Exercise 9: O TFIDF Exercise 10: Cálculos manuais Exercise 11: Prática de TFIDF Exercise 12: Similaridade cosseno Exercise 13: Um exemplo de falha na análise de texto Exercise 14: Exemplo de similaridade cosseno

O Capítulo 3 foca em duas abordagens comuns de análise de texto: modelagem de classificação e modelagem de tópicos. Se você trabalha com projetos de análise de texto, inevitavelmente usará um ou ambos os métodos. Este capítulo mostra como realizar as duas técnicas e traz insights sobre como abordá-las de forma prática.

Exercise 1: Preparando o texto para modelagem Exercise 2: Preparação de dados Exercise 3: Removendo termos esparsos Exercise 4: Modelagem de classificação Exercise 5: Exemplo de modelagem de classificação Exercise 6: Matrizes de confusão Exercise 7: Tibble TFIDF vs dtm Exercise 8: Introdução ao modelagem de tópicos Exercise 9: Prática com LDA Exercise 10: Atribuindo tópicos a documentos Exercise 11: LDA na prática Exercise 12: Testando perplexidade Exercise 13: Revisando os resultados do LDA

No Capítulo 4, cobrimos dois pilares do processamento de linguagem natural: análise de sentimentos e word embeddings. Essas são duas técnicas essenciais para quem está aprendendo os fundamentos de análise de texto. Além disso, você vai aprender brevemente sobre BERT, marcação de classe gramatical (part-of-speech tagging) e reconhecimento de entidades nomeadas. Quase 15 técnicas de análise diferentes foram abordadas neste curso, então o Capítulo 4 termina recapitulando todas as ótimas técnicas que você conhecerá aqui.

Exercise 1: Análise de sentimento Exercise 2: lexicons do tidytext Exercise 3: Scores de sentimento Exercise 4: Sentimento e emoção Exercise 5: Word embeddings Exercise 6: Prática com h2o Exercise 7: word2vec Exercise 8: Análises adicionais de NLP Exercise 9: Revisando métodos #1 Exercise 10: Revisão de métodos #2 Exercise 11: Conclusão