Association de mots
Comme prévu, vous observez des thématiques similaires dans tout le dendrogramme. De retour aux commentaires positifs, vous décidez d’examiner les expressions les plus fréquentes apparues dans les nuages de mots. Vous espérez trouver des termes associés en utilisant la fonction findAssocs() de tm. Vous souhaitez maintenant vérifier s’il y a quelque chose de surprenant, sachant ce que vous avez appris sur les longues heures et le manque d’équilibre vie professionnelle/vie personnelle.
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
Le corpus amzn_pros_corp a été nettoyé avec les fonctions personnalisées comme précédemment.
- Construisez une TDM appelée
amzn_p_tdmà partir deamzn_pros_corpaveccontrol = list(tokenize = tokenizer). - Créez
amzn_p_men convertissantamzn_p_tdmen matrice. - Créez
amzn_p_freqen appliquantrowSums()àamzn_p_m. - Créez
term_frequencyen utilisantsort()suramzn_p_freqavec l’argumentdecreasing = TRUE. - Examinez les 5 premiers bigrammes avec
term_frequency[1:5]. - Vous pourriez être surpris de voir "fast paced" comme terme principal, car il peut avoir une connotation négative liée aux "longues heures". Examinez les termes les plus associés à "fast paced". Utilisez
findAssocs()suramzn_p_tdmpour analyser"fast paced"avec un seuil de0.2.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create amzn_p_tdm
___ <- ___(
___,
___
)
# Create amzn_p_m
___ <- ___
# Create amzn_p_freq
___ <- ___
# Create term_frequency
___ <- ___
# Print the 5 most common terms
___
# Find associations with fast-paced
___