ComeçarComece de graça

Associação de palavras

Como esperado, você vê tópicos semelhantes ao longo do dendrograma. Voltando aos comentários positivos, você decide examinar as principais frases que apareceram nas nuvens de palavras. Você espera encontrar termos associados usando a função findAssocs() do tm. Agora que você sabe sobre jornadas longas e falta de equilíbrio entre trabalho e vida pessoal, quer verificar se há algo surpreendente.

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

O corpus amzn_pros_corp foi limpo usando as funções personalizadas como antes.

  • Construa uma TDM chamada amzn_p_tdm a partir de amzn_pros_corp e control = list(tokenize = tokenizer).
  • Crie amzn_p_m convertendo amzn_p_tdm em uma matrix.
  • Crie amzn_p_freq aplicando rowSums() a amzn_p_m.
  • Crie term_frequency usando sort() em amzn_p_freq junto com o argumento decreasing = TRUE.
  • Examine os 5 primeiros bigramas usando term_frequency[1:5].
  • Pode ser surpreendente ver "fast paced" como um dos principais termos, pois pode ter conotação negativa relacionada a "long hours". Veja os termos mais associados a "fast paced". Use findAssocs() em amzn_p_tdm para examinar "fast paced" com um cutoff de 0.2.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Create term_frequency
___ <- ___

# Print the 5 most common terms
___

# Find associations with fast-paced
___
Editar e executar o código