Termes fréquents avec qdap

Si cela vous convient de perdre un peu de contrôle sur les étapes exactes de prétraitement, une manière rapide d’obtenir les termes fréquents est d’utiliser freq_terms() de qdap.

La fonction accepte une variable texte qui, dans notre cas, est le vecteur tweets$text. Vous pouvez préciser le nombre de termes à afficher via l’argument top, fournir un vecteur de mots vides à supprimer via l’argument stopwords, et définir la longueur minimale (en caractères) d’un mot à inclure via l’argument at.least. qdap possède sa propre liste de mots vides, différente de celle de tm. Dans cet exercice, vous verrez comment utiliser l’une ou l’autre et comparer leurs résultats.

Créer un graphique de base des résultats est simple : il suffit d’appeler plot() sur l’objet retourné par freq_terms().

Cet exercice fait partie du cours

<cours>Text mining avec sac de mots en R</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create frequency
frequency <- ___(
  ___, 
  top = ___, 
  at.least = ___, 
  stopwords = ___
)

# Make a frequency bar chart

Modifier et exécuter le code