Ein Beispiel dafür, wie Textanalyse scheitern kann
Ganz am Anfang hast du darüber gesprochen, wie hilfreich es ist, Stoppwörter zu entfernen, bevor du eine Textanalyse durchführst. Im letzten Kapitel hast du dir angesehen, wie man mit der Kosinus-Ähnlichkeit Texte identifiziert, die einander ähnlich sind.
In dieser Übung untersuchst du die sehr reale Möglichkeit, Textanalyse falsch anzuwenden. Du berechnest die Kosinus-Ähnlichkeiten für die Kapitel des Buchs Animal Farm, ohne Stoppwörter zu entfernen.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit R
Anleitung zur Übung
- Sieh dir den bereitgestellten Code an, der die Worthäufigkeiten erzeugt. Das ist bereits für dich erledigt.
- Verwende die Funktion
pairwise_similarity()auswidyr, um die Kosinus-Ähnlichkeiten für jedes Kapitel in der Spaltechapterzu berechnen. - Sortiere die Ergebnisse so, dass die höchsten
similarity-Werte zuerst stehen. - Berechne den Durchschnitt (
mean) dersimilarity-Werte.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create word counts
animal_farm_counts <- animal_farm %>%
unnest_tokens(word, text_column) %>%
count(chapter, word)
# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
___(___, ___, n) %>%
arrange(desc(___))
# Print the mean of the similarity values
comparisons %>%
summarize(mean = ___(___))