CommencerCommencer gratuitement

Association de mots

Comme prévu, vous observez des thématiques similaires dans tout le dendrogramme. De retour aux commentaires positifs, vous décidez d’examiner les expressions les plus fréquentes apparues dans les nuages de mots. Vous espérez trouver des termes associés en utilisant la fonction findAssocs() de tm. Vous souhaitez maintenant vérifier s’il y a quelque chose de surprenant, sachant ce que vous avez appris sur les longues heures et le manque d’équilibre vie professionnelle/vie personnelle.

Cet exercice fait partie du cours

Text mining avec sac de mots en R

Afficher le cours

Instructions

Le corpus amzn_pros_corp a été nettoyé avec les fonctions personnalisées comme précédemment.

  • Construisez une TDM appelée amzn_p_tdm à partir de amzn_pros_corp avec control = list(tokenize = tokenizer).
  • Créez amzn_p_m en convertissant amzn_p_tdm en matrice.
  • Créez amzn_p_freq en appliquant rowSums() à amzn_p_m.
  • Créez term_frequency en utilisant sort() sur amzn_p_freq avec l’argument decreasing = TRUE.
  • Examinez les 5 premiers bigrammes avec term_frequency[1:5].
  • Vous pourriez être surpris de voir "fast paced" comme terme principal, car il peut avoir une connotation négative liée aux "longues heures". Examinez les termes les plus associés à "fast paced". Utilisez findAssocs() sur amzn_p_tdm pour analyser "fast paced" avec un seuil de 0.2.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Create term_frequency
___ <- ___

# Print the 5 most common terms
___

# Find associations with fast-paced
___
Modifier et exécuter le code