ComeçarComece de graça

Como bigramas afetam nuvens de palavras?

Agora que você criou uma DTM de bigramas, pode examiná-la e refazer uma nuvem de palavras. O novo método de tokenização afeta não apenas as matrizes, mas também qualquer visualização ou modelagem baseada nelas.

Lembra como "Marvin" e "Gaye" eram termos separados na nuvem de palavras de chardonnay? Usando bigramas, a tokenização captura todas as combinações de duas palavras. Observe o que acontece com a nuvem de palavras neste exercício.

Este exercício usa str_subset do stringr. Lembre-se de que outros cursos da DataCamp abordam expressões regulares em mais detalhes. Como lembrete, a expressão regular ^ corresponde à posição de início dentro dos bigramas do exercício.

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

Os tweets de chardonnay foram limpos e organizados em uma DTM chamada bigram_dtm.

  • Crie bigram_dtm_m convertendo bigram_dtm em uma matriz.
  • Crie um objeto freq com as frequências das palavras aplicando colSums() em bigram_dtm_m.
  • Extraia o vetor de caracteres com as combinações de palavras usando names(freq) e atribua o resultado a bi_words.
  • Passe bi_words para str_subset() com o padrão de correspondência "^marvin" para revisar todos os bigramas que começam com "marvin".
  • Plote uma wordcloud() simples passando bi_words, freq e max.words = 15 para a função.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create bigram_dtm_m
___ <- ___(___)

# Create freq
___ <- ___(___)

# Create bi_words
___ <- ___(___)

# Examine part of bi_words
___(___, ___)

# Plot a word cloud
___(___, ___, ___)
Editar e executar o código