Remover stop words e espaços extras

Um corpus de texto geralmente contém muitas palavras comuns como "a", "an", "the", "of" e "but". Em Processamento de Linguagem Natural, elas são chamadas de stop words.

Normalmente, as stop words são removidas durante o processamento de texto para que você possa focar em palavras mais importantes do corpus e extrair insights.

Além disso, os espaços extras criados durante a remoção de caracteres especiais, pontuação, números e stop words precisam ser removidos do corpus.

O corpus que você criou no exercício anterior já foi carregado como twt_corpus_lwr.

A biblioteca tm já foi carregada para este exercício.

Este exercicio faz parte do curso

Analisando dados de mídias sociais em R

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Remove English stop words from the corpus and view the corpus 
twt_corpus_stpwd <- ___(twt_corpus_lwr, ___, stopwords("___"))
head(twt_corpus_stpwd$content)

Editar e Executar Código

Este exercicio faz parte do curso

Analisando dados de mídias sociais em R

IntermediárioNível de habilidade

4.9+

Comece o curso gratuitamente

Comece entendendo o poder dos dados do Twitter e o que você pode alcançar com a análise de mídias sociais. Neste capítulo, você vai extrair seu primeiro conjunto de tweets usando a API do Twitter e funções da poderosa biblioteca ‘rtweet’. Depois, é hora de explorar como usar os componentes dos dados extraídos do Twitter para obter insights para análise de mídias sociais.

Exercise 1: Analisando dados do Twitter Exercise 2: O poder dos dados do Twitter Exercise 3: Prós e contras dos dados do Twitter Exercise 4: Extraindo dados do Twitter Exercise 5: Pré-requisitos para configurar o ambiente R Exercise 6: Pesquisar e extrair tweets Exercise 7: Buscar e extrair timelines Exercise 8: Componentes dos dados do Twitter Exercise 9: Interesse do usuário e contagem de tweets Exercise 10: Compare a contagem de seguidores Exercise 11: Contagem de retweets

Hora de aprofundar. Aprenda a aplicar filtros aos tweets e a analisar dados de usuários do Twitter usando a razão áurea e as listas do Twitter às quais eles assinam. Você também vai aprender a extrair tópicos em alta e a analisar dados do Twitter ao longo do tempo para identificar insights interessantes.

Exercise 1: Filtrando tweets Exercise 2: Filtrando tweets originais Exercise 3: Filtrando pelo idioma do tweet Exercise 4: Filtrar com base na popularidade do tweet Exercise 5: Análise de usuários do Twitter Exercise 6: Extrair informações de usuários Exercise 7: Explore usuários com base na golden ratio Exercise 8: Inscritos em listas do Twitter Exercise 9: Tendências no Twitter Exercise 10: Tendências disponíveis Exercise 11: Tendências por nome de país Exercise 12: Tendências por cidade e tendências mais tuitadas Exercise 13: Plotando dados do Twitter ao longo do tempo Exercise 14: Visualizando a frequência de tweets Exercise 15: Criar objetos de séries temporais Exercise 16: Compare a frequência de tweets de duas marcas

Uma imagem vale mais que mil palavras! Neste capítulo, você vai descobrir como visualizar o texto de tweets usando gráficos de barras e nuvens de palavras. Você vai aprender a processar o texto de tweets e preparar um corpus de texto limpo para análise. Imagine conseguir extrair os principais temas de discussão e a percepção das pessoas sobre um assunto ou marca a partir dos tweets que elas compartilham. Você fará exatamente isso usando modelagem de tópicos e análise de sentimentos.

Exercise 1: Processando textos do Twitter Exercise 2: Remover URLs e caracteres que não sejam letras Exercise 3: Crie um corpus e converta para minúsculas Exercise 4: Remover stop words e espaços extras

Exercicio Atual

Exercise 5: Visualizar termos populares Exercise 6: Removendo stop words personalizadas Exercise 7: Visualize termos populares com gráficos de barras Exercise 8: Nuvens de palavras para visualização Exercise 9: Modelagem de tópicos em tweets Exercise 10: O algoritmo LDA Exercise 11: Crie uma matriz termo-documento Exercise 12: Crie um modelo de tópicos Exercise 13: Análise de sentimento no Twitter Exercise 14: Extrair escores de sentimento Exercise 15: Realizar análise de sentimentos

Usuários do Twitter tuitam, curtem, seguem e retuitam, criando estruturas de rede complexas. Neste capítulo final, você vai aprender a analisar essas estruturas de rede e visualizar as relações entre essas pessoas como uma rede de retweets. Ao extrair dados de geolocalização dos tweets, você também vai descobrir como exibir locais de tweets em um mapa e responder a perguntas poderosas, como: quais estados ou países estão falando mais sobre sua marca? Dados geográficos acrescentam uma nova dimensão à sua análise de dados do Twitter.

Exercise 1: Análise de redes no Twitter Exercise 2: Preparando os dados para uma rede de retweets Exercise 3: Criar uma rede de retweets Exercise 4: Medidas de centralidade em redes Exercise 5: Calcular pontuações de out-degree Exercise 6: Calcule os escores de in-degree Exercise 7: Calcular os escores de betweenness Exercise 8: Visualizando redes do Twitter Exercise 9: Crie um gráfico de rede com atributos Exercise 10: Gráfico de rede baseado em medida de centralidade Exercise 11: Contagem de seguidores para destacar o gráfico de rede Exercise 12: Colocando os dados do Twitter no mapa Exercise 13: Extrair coordenadas de geolocalização Exercise 14: Dados do Twitter no mapa Exercise 15: Encerramento do curso