Ein Beispiel dafür, wie Textanalyse scheitern kann
Ganz am Anfang hast du darüber gesprochen, wie hilfreich es ist, Stoppwörter zu entfernen, bevor du eine Textanalyse durchführst. Im letzten Kapitel hast du dir angesehen, wie man mit der Kosinus-Ähnlichkeit Texte identifiziert, die einander ähnlich sind.
In dieser Übung untersuchst du die sehr reale Möglichkeit, Textanalyse falsch anzuwenden. Du berechnest die Kosinus-Ähnlichkeiten für die Kapitel des Buchs Animal Farm, ohne Stoppwörter zu entfernen.
Diese Übung ist Teil des Kurses
<Kurs>Einführung in Natural Language Processing mit R</Kurs>Übungsanweisungen
- Sieh dir den bereitgestellten Code an, der die Worthäufigkeiten erzeugt. Das ist bereits für dich erledigt.
- Verwende die Funktion
pairwise_similarity()auswidyr, um die Kosinus-Ähnlichkeiten für jedes Kapitel in der Spaltechapterzu berechnen. - Sortiere die Ergebnisse so, dass die höchsten
similarity-Werte zuerst stehen. - Berechne den Durchschnitt (
mean) dersimilarity-Werte.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Create word counts
animal_farm_counts <- animal_farm %>%
unnest_tokens(word, text_column) %>%
count(chapter, word)
# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
___(___, ___, n) %>%
arrange(desc(___))
# Print the mean of the similarity values
comparisons %>%
summarize(mean = ___(___))