Snelle kennismaking met text mining

Soms kun je de intentie van de auteur en de hoofdlijnen achterhalen door simpelweg naar de meest voorkomende woorden te kijken.

In de kern is bag-of-words text mining een manier om termen of n-grams te tellen over een collectie documenten. Bekijk de volgende zinnen, die we hebben opgeslagen in text en beschikbaar hebben gemaakt in je werkruimte:

text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."

De woorden in de zinnen hierboven handmatig tellen is een klus! Gelukkig biedt het qdap-package een beter alternatief. Je kunt de 4 meest voorkomende termen (inclusief ex aequo) in text eenvoudig vinden door de functie freq_terms aan te roepen en 4 op te geven.

frequent_terms <- freq_terms(text, 4)

Het object frequent_terms slaat alle unieke woorden en hun aantallen op. Je kunt daarna een staafdiagram maken door simpelweg de functie plot aan te roepen op het object frequent_terms.

plot(frequent_terms)

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Bekijk cursus

Oefeninstructies

We hebben in je werkruimte een object new_text aangemaakt met meerdere zinnen.

Laad het qdap-package.
Print new_text naar de console.
Maak term_count aan met de 10 meest voorkomende termen in new_text.
Plot een staafdiagram met de resultaten van term_count.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Load qdap
___

# Print new_text to the console
new_text

# Find the 10 most frequent terms: term_count
term_count <- ___

# Plot term_count
___

Code bewerken en uitvoeren