Ein Beispiel dafür, wie Textanalyse scheitern kann

Ganz am Anfang hast du darüber gesprochen, wie hilfreich es ist, Stoppwörter zu entfernen, bevor du eine Textanalyse durchführst. Im letzten Kapitel hast du dir angesehen, wie man mit der Kosinus-Ähnlichkeit Texte identifiziert, die einander ähnlich sind.

In dieser Übung untersuchst du die sehr reale Möglichkeit, Textanalyse falsch anzuwenden. Du berechnest die Kosinus-Ähnlichkeiten für die Kapitel des Buchs Animal Farm, ohne Stoppwörter zu entfernen.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit R

Kurs anzeigen

Anleitung zur Übung

Sieh dir den bereitgestellten Code an, der die Worthäufigkeiten erzeugt. Das ist bereits für dich erledigt.
Verwende die Funktion pairwise_similarity() aus widyr, um die Kosinus-Ähnlichkeiten für jedes Kapitel in der Spalte chapter zu berechnen.
Sortiere die Ergebnisse so, dass die höchsten similarity-Werte zuerst stehen.
Berechne den Durchschnitt (mean) der similarity-Werte.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create word counts
animal_farm_counts <- animal_farm %>%
  unnest_tokens(word, text_column) %>%
  count(chapter, word)

# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
  ___(___, ___, n) %>%
  arrange(desc(___))

# Print the mean of the similarity values
comparisons %>%
  summarize(mean = ___(___))

Code bearbeiten und ausführen

Einführung in Natural Language Processing mit R

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

33 reviews

In Kapitel 4 behandeln wir zwei feste Größen des Natural Language Processing: Sentiment-Analyse und Word Embeddings. Diese beiden Analysetechniken gehören für alle, die die Grundlagen der Textanalyse lernen, einfach dazu. Außerdem erfährst du kurz etwas über BERT, Part-of-Speech-Tagging und Named Entity Recognition. In diesem Kurs wurden fast 15 verschiedene Analysetechniken abgedeckt, daher endet Kapitel 4 mit einer Zusammenfassung all der großartigen Techniken, die du in diesem Kurs kennenlernen wirst.

Exercise 1: Sentimentanalyse Exercise 2: tidytext-Lexika Exercise 3: Sentiment-Scores Exercise 4: Sentiment und Emotion Exercise 5: Wort-Embeddings Exercise 6: h2o-Übung Exercise 7: word2vec Exercise 8: Zusätzliche NLP-Analysen Exercise 9: Methoden wiederholen #1 Exercise 10: Methoden wiederholen #2 Exercise 11: Fazit