Un avant-goût du text mining
Parfois, on peut deviner l’intention de l’auteur et les idées principales rien qu’en regardant les mots les plus fréquents.
Au cœur du bag-of-words, le text mining consiste à compter des termes, ou n-grammes, dans un ensemble de documents. Prenez les phrases suivantes, que nous avons enregistrées dans text et mises à disposition dans votre espace de travail :
text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."
Compter manuellement les mots dans ces phrases est fastidieux ! Heureusement, le package qdap propose une meilleure alternative. Vous pouvez facilement trouver les 4 termes les plus fréquents (ex æquo inclus) dans text en appelant la fonction freq_terms et en indiquant 4.
frequent_terms <- freq_terms(text, 4)
L’objet frequent_terms stocke tous les mots uniques et leur nombre d’occurrences. Vous pouvez ensuite créer un diagramme en barres simplement en appelant la fonction plot sur l’objet frequent_terms.
plot(frequent_terms)
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
Nous avons créé dans votre espace de travail un objet appelé new_text contenant plusieurs phrases.
- Chargez le package
qdap. - Affichez
new_textdans la console. - Créez
term_countcomposé des 10 termes les plus fréquents dansnew_text. - Tracez un diagramme en barres avec les résultats de
term_count.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load qdap
___
# Print new_text to the console
new_text
# Find the 10 most frequent terms: term_count
term_count <- ___
# Plot term_count
___