Como bigramas afetam nuvens de palavras?

Agora que você criou uma DTM de bigramas, pode examiná-la e refazer uma nuvem de palavras. O novo método de tokenização afeta não apenas as matrizes, mas também qualquer visualização ou modelagem baseada nelas.

Lembra como "Marvin" e "Gaye" eram termos separados na nuvem de palavras de chardonnay? Usando bigramas, a tokenização captura todas as combinações de duas palavras. Observe o que acontece com a nuvem de palavras neste exercício.

Este exercício usa str_subset do stringr. Lembre-se de que outros cursos da DataCamp abordam expressões regulares em mais detalhes. Como lembrete, a expressão regular ^ corresponde à posição de início dentro dos bigramas do exercício.

Este exercicio faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercicio

Os tweets de chardonnay foram limpos e organizados em uma DTM chamada bigram_dtm.

Crie bigram_dtm_m convertendo bigram_dtm em uma matriz.
Crie um objeto freq com as frequências das palavras aplicando colSums() em bigram_dtm_m.
Extraia o vetor de caracteres com as combinações de palavras usando names(freq) e atribua o resultado a bi_words.
Passe bi_words para str_subset() com o padrão de correspondência "^marvin" para revisar todos os bigramas que começam com "marvin".
Plote uma wordcloud() simples passando bi_words, freq e max.words = 15 para a função.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create bigram_dtm_m
___ <- ___(___)

# Create freq
___ <- ___(___)

# Create bi_words
___ <- ___(___)

# Examine part of bi_words
___(___, ___)

# Plot a word cloud
___(___, ___, ___)

Editar e Executar Código