LoslegenKostenlos starten

Ein Beispiel dafür, wie Textanalyse scheitern kann

Ganz am Anfang hast du darüber gesprochen, wie hilfreich es ist, Stoppwörter zu entfernen, bevor du eine Textanalyse durchführst. Im letzten Kapitel hast du dir angesehen, wie man mit der Kosinus-Ähnlichkeit Texte identifiziert, die einander ähnlich sind.

In dieser Übung untersuchst du die sehr reale Möglichkeit, Textanalyse falsch anzuwenden. Du berechnest die Kosinus-Ähnlichkeiten für die Kapitel des Buchs Animal Farm, ohne Stoppwörter zu entfernen.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit R</Kurs>
Kurs ansehen

Übungsanweisungen

  • Sieh dir den bereitgestellten Code an, der die Worthäufigkeiten erzeugt. Das ist bereits für dich erledigt.
  • Verwende die Funktion pairwise_similarity() aus widyr, um die Kosinus-Ähnlichkeiten für jedes Kapitel in der Spalte chapter zu berechnen.
  • Sortiere die Ergebnisse so, dass die höchsten similarity-Werte zuerst stehen.
  • Berechne den Durchschnitt (mean) der similarity-Werte.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create word counts
animal_farm_counts <- animal_farm %>%
  unnest_tokens(word, text_column) %>%
  count(chapter, word)

# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
  ___(___, ___, n) %>%
  arrange(desc(___))

# Print the mean of the similarity values
comparisons %>%
  summarize(mean = ___(___))
Code bearbeiten und ausführen