Como bigramas afetam nuvens de palavras?
Agora que você criou uma DTM de bigramas, pode examiná-la e refazer uma nuvem de palavras. O novo método de tokenização afeta não apenas as matrizes, mas também qualquer visualização ou modelagem baseada nelas.
Lembra como "Marvin" e "Gaye" eram termos separados na nuvem de palavras de chardonnay? Usando bigramas, a tokenização captura todas as combinações de duas palavras. Observe o que acontece com a nuvem de palavras neste exercício.
Este exercício usa str_subset do stringr. Lembre-se de que outros cursos da DataCamp abordam expressões regulares em mais detalhes. Como lembrete, a expressão regular ^ corresponde à posição de início dentro dos bigramas do exercício.
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
Os tweets de chardonnay foram limpos e organizados em uma DTM chamada bigram_dtm.
- Crie
bigram_dtm_mconvertendobigram_dtmem uma matriz. - Crie um objeto
freqcom as frequências das palavras aplicandocolSums()embigram_dtm_m. - Extraia o vetor de caracteres com as combinações de palavras usando
names(freq)e atribua o resultado abi_words. - Passe
bi_wordsparastr_subset()com o padrão de correspondência"^marvin"para revisar todos os bigramas que começam com "marvin". - Plote uma
wordcloud()simples passandobi_words,freqemax.words = 15para a função.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create bigram_dtm_m
___ <- ___(___)
# Create freq
___ <- ___(___)
# Create bi_words
___ <- ___(___)
# Examine part of bi_words
___(___, ___)
# Plot a word cloud
___(___, ___, ___)