Matrizes esparsas

Na videoaula, você aprendeu sobre matrizes esparsas. Elas podem se tornar um pesadelo computacional conforme aumentam o número de documentos de texto e o número de palavras únicas. Representar palavras em tweets pode facilmente gerar matrizes esparsas porque emojis, gírias, siglas e outras formas de linguagem são usadas.

Neste exercício, você vai percorrer as etapas para calcular o quão esparso é o conjunto de dados de tweets em russo. Observe que este é um pequeno exemplo de como a análise de texto pode rapidamente se tornar um grande problema computacional.

Este exercicio faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Ver curso

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Tokenize and remove stop words
tidy_tweets <- russian_tweets %>%
  ___(word, content) %>%
  ___(stop_words)
# Count by word
unique_words <- tidy_tweets %>%
  count(___)

Editar e Executar Código

Este exercicio faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

IntermediárioNível de habilidade

4.8+

40 reviews

Comece o curso gratuitamente

O Capítulo 1 de Introdução ao Processamento de Linguagem Natural prepara você para executar sua primeira análise de texto. Você vai explorar expressões regulares e tokenização, dois componentes muito comuns na maioria das tarefas de análise. Com expressões regulares, você pode buscar qualquer padrão que imaginar e, com tokenização, preparar e limpar o texto para análises mais sofisticadas. Este capítulo é essencial para enfrentar as técnicas que veremos nos demais capítulos do curso.

Exercise 1: Noções básicas de expressões regulares Exercise 2: Praticando a sintaxe com grep Exercise 3: Explorando funções de expressões regulares.Exercise 4: Tokenização Exercise 5: funções do tidytext Exercise 6: Tokenização: frases Exercise 7: Noções básicas de limpeza de texto Exercise 8: Pré-processamento de texto: remover stop words Exercise 9: Pré-processamento de texto: Stemming

Neste capítulo, você vai aprender as formas mais comuns e estudadas de analisar texto. Você verá como criar um corpus de textos, expandir uma representação bag-of-words para uma matriz TFIDF e usar métricas de similaridade do cosseno para determinar o quão semelhantes dois textos são entre si. Você vai consolidar seus fundamentos para praticar NLP antes de mergulhar nas aplicações de NLP nos capítulos 3 e 4.

Exercise 1: Entendendo um corpus em R Exercise 2: Explore um corpus em R Exercise 3: Criando um tibble a partir de um corpus Exercise 4: Criando um corpus Exercise 5: A representação bag-of-words Exercise 6: Praticando BoW Exercise 7: Exemplo de BoW Exercise 8: Matrizes esparsas

Exercicio Atual

Exercise 9: O TFIDF Exercise 10: Cálculos manuais Exercise 11: Prática de TFIDF Exercise 12: Similaridade cosseno Exercise 13: Um exemplo de falha na análise de texto Exercise 14: Exemplo de similaridade cosseno

O Capítulo 3 foca em duas abordagens comuns de análise de texto: modelagem de classificação e modelagem de tópicos. Se você trabalha com projetos de análise de texto, inevitavelmente usará um ou ambos os métodos. Este capítulo mostra como realizar as duas técnicas e traz insights sobre como abordá-las de forma prática.

Exercise 1: Preparando o texto para modelagem Exercise 2: Preparação de dados Exercise 3: Removendo termos esparsos Exercise 4: Modelagem de classificação Exercise 5: Exemplo de modelagem de classificação Exercise 6: Matrizes de confusão Exercise 7: Tibble TFIDF vs dtm Exercise 8: Introdução ao modelagem de tópicos Exercise 9: Prática com LDA Exercise 10: Atribuindo tópicos a documentos Exercise 11: LDA na prática Exercise 12: Testando perplexidade Exercise 13: Revisando os resultados do LDA

No Capítulo 4, cobrimos dois pilares do processamento de linguagem natural: análise de sentimentos e word embeddings. Essas são duas técnicas essenciais para quem está aprendendo os fundamentos de análise de texto. Além disso, você vai aprender brevemente sobre BERT, marcação de classe gramatical (part-of-speech tagging) e reconhecimento de entidades nomeadas. Quase 15 técnicas de análise diferentes foram abordadas neste curso, então o Capítulo 4 termina recapitulando todas as ótimas técnicas que você conhecerá aqui.

Exercise 1: Análise de sentimento Exercise 2: lexicons do tidytext Exercise 3: Scores de sentimento Exercise 4: Sentimento e emoção Exercise 5: Word embeddings Exercise 6: Prática com h2o Exercise 7: word2vec Exercise 8: Análises adicionais de NLP Exercise 9: Revisando métodos #1 Exercise 10: Revisão de métodos #2 Exercise 11: Conclusão