Da Text unstrukturierte Daten sind, ist eine gewisse Aufbereitung nötig, um ihn in eine Form zu bringen, die du analysieren kannst. In diesem Kapitel lernst du, Text zu strukturieren, indem du ihn tokenisierst, bereinigst und als kategoriale Daten behandelst.

Text als Daten

Airline-Tweets-Daten

Gruppierte Zusammenfassungen

Kategoriale Daten zählen

Benutzertypen zählen

Benutzertypen zusammenfassen

Tokenisieren und Bereinigen

Tokenisieren und zählen

Bereinigen und Zählen

Text aufbereiten

Zählungen sind gut, Visualisierungen sind besser. In diesem Kapitel lernst du, wie du dein Wissen aus ggplot2 auf tidy-Textdaten anwendest.

Wortanzahlen visualisieren

Beschwerden visualisieren

Nicht-Beschwerden visualisieren

Wortanzahl-Diagramme verbessern

Eigene Stoppwörter hinzufügen

Wortzählungen mit Faktoren visualisieren

Wortzählungsdiagramme facettieren

Nach Produkt zählen und neu anordnen

Wortanzahlen mit Facets visualisieren

Wordclouds plotten

Eine Wortwolke erstellen

Ein Farbtupfer

Text visualisieren

Wortzählungen und Visualisierungen geben Hinweise auf den Inhalt, aber da geht noch mehr. In diesem Kapitel gehen wir über reine Wortzählungen hinaus und analysieren die Stimmung bzw. den emotionalen Gehalt von Text.

Sentiment-Wörterbücher

Die NRC-Stimmungen zählen

NRC-Stimmungen visualisieren

Dictionaries anhängen

Stimmungen zählen

Sentiment visualisieren

Sentimentanalyse verbessern

Übe das Umformen von Daten

Üben mit gruppierten Zusammenfassungen

Sentiment nach Beschwerdetyp visualisieren

Sentiment-Analyse

In diesem letzten Kapitel gehen wir über Wortzählungen hinaus und decken die zugrunde liegenden Themen in einer Sammlung von Dokumenten auf. Wir verwenden ein Standard-Topic-Model namens Latent Dirichlet Allocation.

Latent-Dirichlet-Allocation

Themen als Wortwahrscheinlichkeiten

Themen zusammenfassen

Themen visualisieren

Dokument-Term-Matrizen

Eine DTM erstellen

Eine DTM als Matrix auswerten

Topic-Modelle ausführen

Ein LDA anpassen

LDA-Ausgabe aufbereiten

LDA-Ausgaben vergleichen

Themen interpretieren

Drei Topics benennen

Vier Themen benennen

Zusammenfassung

Topic Modeling

Airline tweets

Roomba reviews

Von sozialen Medien bis hin zu Produktrezensionen: Text ist in vielen Anwendungsbereichen, etwa im Marketing, ein immer wichtigerer Datentyp. Oft ersetzt Text andere Formen unstrukturierter Daten, weil er günstig und aktuell ist. Um das volle Potenzial von Text auszuschöpfen, musst du lernen, wie du darüber nachdenkst, ihn bereinigst, zusammenfasst und modellierst. In diesem Kurs nutzt du moderne tidy-Tools, um schnell und einfach in die Textarbeit einzusteigen. Du lernst, Text aufzubereiten und zu visualisieren, eine Sentiment-Analyse durchzuführen sowie Topic-Modelle zu erstellen und zu interpretieren.

Introduction to the Tidyverse

Erfahren Sie, wie Sie Textdaten in R mit dem Tidy-Framework analysieren: Sentiment, Themen, Visualisierung.

Einführung in die Textanalyse mit R

In diesem Kurs geht es darum, Textdaten in R mit dem tidy-Framework zu analysieren.

Marketing-Analytik mit R

Text Mining mit R

Tokenisieren und zählen

Einführung in die Textanalyse mit R

Anleitung zur Übung

Interaktive Übung