Un avant-goût du text mining

Parfois, on peut deviner l’intention de l’auteur et les idées principales rien qu’en regardant les mots les plus fréquents.

Au cœur du bag-of-words, le text mining consiste à compter des termes, ou n-grammes, dans un ensemble de documents. Prenez les phrases suivantes, que nous avons enregistrées dans text et mises à disposition dans votre espace de travail :

text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."

Compter manuellement les mots dans ces phrases est fastidieux ! Heureusement, le package qdap propose une meilleure alternative. Vous pouvez facilement trouver les 4 termes les plus fréquents (ex æquo inclus) dans text en appelant la fonction freq_terms et en indiquant 4.

frequent_terms <- freq_terms(text, 4)

L’objet frequent_terms stocke tous les mots uniques et leur nombre d’occurrences. Vous pouvez ensuite créer un diagramme en barres simplement en appelant la fonction plot sur l’objet frequent_terms.

plot(frequent_terms)

Cet exercice fait partie du cours

<cours>Text mining avec sac de mots en R</cours>

Voir le cours

Instructions de l’exercice

Nous avons créé dans votre espace de travail un objet appelé new_text contenant plusieurs phrases.

Chargez le package qdap.
Affichez new_text dans la console.
Créez term_count composé des 10 termes les plus fréquents dans new_text.
Tracez un diagramme en barres avec les résultats de term_count.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Load qdap
___

# Print new_text to the console
new_text

# Find the 10 most frequent terms: term_count
term_count <- ___

# Plot term_count
___

Modifier et exécuter le code