LoslegenKostenlos loslegen

Kleiner Vorgeschmack auf Text Mining

Manchmal können wir die Absicht der Autorin oder des Autors und die Kernaussagen erkennen, wenn wir uns nur die häufigsten Wörter ansehen.

Im Kern ist Text Mining mit dem Bag-of-Words-Ansatz eine Methode, um Terme oder n-Gramme über eine Sammlung von Dokumenten zu zählen. Sieh dir die folgenden Sätze an, die wir unter text gespeichert und in deinem Workspace verfügbar gemacht haben:

text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."

Die Wörter in den obigen Sätzen manuell zu zählen, ist mühsam! Zum Glück bietet das Paket qdap eine bessere Alternative. Du kannst die 4 am häufigsten vorkommenden Terme (inklusive Gleichstände) in text ganz einfach finden, indem du die Funktion freq_terms aufrufst und 4 angibst.

frequent_terms <- freq_terms(text, 4)

Das Objekt frequent_terms speichert alle einzigartigen Wörter und deren Anzahl. Anschließend kannst du mit einem einfachen Aufruf der Funktion plot auf das Objekt frequent_terms ein Balkendiagramm erstellen.

plot(frequent_terms)

Diese Übung ist Teil des Kurses

Text Mining mit Bag-of-Words in R

Kurs anzeigen

Anleitung zur Übung

Wir haben in deinem Workspace ein Objekt namens new_text mit mehreren Sätzen erstellt.

  • Lade das Paket qdap.
  • Gib new_text in der Konsole aus.
  • Erstelle term_count mit den 10 am häufigsten vorkommenden Termen in new_text.
  • Zeichne ein Balkendiagramm mit den Ergebnissen von term_count.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load qdap
___

# Print new_text to the console
new_text

# Find the 10 most frequent terms: term_count
term_count <- ___

# Plot term_count
___
Code bearbeiten und ausführen