LoslegenKostenlos loslegen

Ein Beispiel dafür, wie Textanalyse scheitern kann

Ganz am Anfang hast du darüber gesprochen, wie hilfreich es ist, Stoppwörter zu entfernen, bevor du eine Textanalyse durchführst. Im letzten Kapitel hast du dir angesehen, wie man mit der Kosinus-Ähnlichkeit Texte identifiziert, die einander ähnlich sind.

In dieser Übung untersuchst du die sehr reale Möglichkeit, Textanalyse falsch anzuwenden. Du berechnest die Kosinus-Ähnlichkeiten für die Kapitel des Buchs Animal Farm, ohne Stoppwörter zu entfernen.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit R

Kurs anzeigen

Anleitung zur Übung

  • Sieh dir den bereitgestellten Code an, der die Worthäufigkeiten erzeugt. Das ist bereits für dich erledigt.
  • Verwende die Funktion pairwise_similarity() aus widyr, um die Kosinus-Ähnlichkeiten für jedes Kapitel in der Spalte chapter zu berechnen.
  • Sortiere die Ergebnisse so, dass die höchsten similarity-Werte zuerst stehen.
  • Berechne den Durchschnitt (mean) der similarity-Werte.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create word counts
animal_farm_counts <- animal_farm %>%
  unnest_tokens(word, text_column) %>%
  count(chapter, word)

# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
  ___(___, ___, n) %>%
  arrange(desc(___))

# Print the mean of the similarity values
comparisons %>%
  summarize(mean = ___(___))
Code bearbeiten und ausführen