Snelle kennismaking met text mining
Soms kun je de intentie van de auteur en de hoofdlijnen achterhalen door simpelweg naar de meest voorkomende woorden te kijken.
In de kern is bag-of-words text mining een manier om termen of n-grams te tellen over een collectie documenten. Bekijk de volgende zinnen, die we hebben opgeslagen in text en beschikbaar hebben gemaakt in je werkruimte:
text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."
De woorden in de zinnen hierboven handmatig tellen is een klus! Gelukkig biedt het qdap-package een beter alternatief. Je kunt de 4 meest voorkomende termen (inclusief ex aequo) in text eenvoudig vinden door de functie freq_terms aan te roepen en 4 op te geven.
frequent_terms <- freq_terms(text, 4)
Het object frequent_terms slaat alle unieke woorden en hun aantallen op. Je kunt daarna een staafdiagram maken door simpelweg de functie plot aan te roepen op het object frequent_terms.
plot(frequent_terms)
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
We hebben in je werkruimte een object new_text aangemaakt met meerdere zinnen.
- Laad het
qdap-package. - Print
new_textnaar de console. - Maak
term_countaan met de 10 meest voorkomende termen innew_text. - Plot een staafdiagram met de resultaten van
term_count.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load qdap
___
# Print new_text to the console
new_text
# Find the 10 most frequent terms: term_count
term_count <- ___
# Plot term_count
___