Kleiner Vorgeschmack auf Text Mining
Manchmal können wir die Absicht der Autorin oder des Autors und die Kernaussagen erkennen, wenn wir uns nur die häufigsten Wörter ansehen.
Im Kern ist Text Mining mit dem Bag-of-Words-Ansatz eine Methode, um Terme oder n-Gramme über eine Sammlung von Dokumenten zu zählen. Sieh dir die folgenden Sätze an, die wir unter text gespeichert und in deinem Workspace verfügbar gemacht haben:
text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."
Die Wörter in den obigen Sätzen manuell zu zählen, ist mühsam! Zum Glück bietet das Paket qdap eine bessere Alternative. Du kannst die 4 am häufigsten vorkommenden Terme (inklusive Gleichstände) in text ganz einfach finden, indem du die Funktion freq_terms aufrufst und 4 angibst.
frequent_terms <- freq_terms(text, 4)
Das Objekt frequent_terms speichert alle einzigartigen Wörter und deren Anzahl. Anschließend kannst du mit einem einfachen Aufruf der Funktion plot auf das Objekt frequent_terms ein Balkendiagramm erstellen.
plot(frequent_terms)
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
Wir haben in deinem Workspace ein Objekt namens new_text mit mehreren Sätzen erstellt.
- Lade das Paket
qdap. - Gib
new_textin der Konsole aus. - Erstelle
term_countmit den 10 am häufigsten vorkommenden Termen innew_text. - Zeichne ein Balkendiagramm mit den Ergebnissen von
term_count.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load qdap
___
# Print new_text to the console
new_text
# Find the 10 most frequent terms: term_count
term_count <- ___
# Plot term_count
___