Sentiment und Emotion

Im sentiments-Datensatz enthält das Lexikon nrc ein Wörterbuch mit Wörtern und der jeweils zugeordneten Emotion. In diesem Datensatz findest du Emotionen wie Freude (joy), Vertrauen (trust), Erwartung (anticipation) und weitere.

Im Datensatz zum russischen Tweet-Bot, den du untersuchst, hast du dir Tweets von einem links- und einem rechtsgerichteten Tweet-Bot angesehen. Untersuche den Inhalt der Tweets des linksgerichteten (demokratischen) Tweet-Bots mit Hilfe des nrc-Lexikons. Die linken Tweets, left, wurden in Wörter tokenisiert und Stoppwörter wurden entfernt.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit R</Kurs>

Übungsanweisungen

Erstelle ein Tibble nur mit den Wörtern zur Emotion „anticipation“ aus dem nrc-Lexikon.
Erstelle ein Tibble nur mit den Wörtern zur Emotion „joy“ aus dem nrc-Lexikon.
Gib die häufigsten anticipation-Wörter aus left_tokens aus.
Gib die häufigsten joy-Wörter aus left_tokens aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

left_tokens <- left %>%
  unnest_tokens(output = "word", token = "words", input = content) %>%
  anti_join(stop_words)
# Dictionaries 
anticipation <- ___("nrc") %>% 
  ___(sentiment == "anticipation")
joy <- ___("nrc") %>% 
  ___(sentiment == "joy")
# Print top words for Anticipation and Joy
left_tokens %>%
  ___(anticipation, by = "word") %>%
  ___(word, sort = TRUE)
left_tokens %>%
  ___(joy, by = "word") %>%
  ___(word, sort = TRUE)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit R</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Kapitel 1 von Einführung in Natural Language Processing bereitet dich darauf vor, deine erste Analyse auf Text auszuführen. Du lernst reguläre Ausdrücke und Tokenisierung kennen – zwei der häufigsten Bausteine der meisten Analysen. Mit regulären Ausdrücken kannst du nach beliebigen Mustern suchen, und mit Tokenisierung bereitest du Text für anspruchsvollere Analysen auf. Dieses Kapitel ist die Grundlage, um die Techniken anzugehen, die wir in den restlichen Kapiteln dieses Kurses lernen.

Exercise 1: Grundlagen regulärer Ausdrücke Exercise 2: Syntax mit grep üben Exercise 3: Reguläre-Ausdruck-Funktionen erkunden.Exercise 4: Tokenisierung Exercise 5: tidytext-Funktionen Exercise 6: Tokenization: Sätze Exercise 7: Grundlagen der Textbereinigung Exercise 8: Textvorverarbeitung: Stoppwörter entfernen Exercise 9: Textvorverarbeitung: Stemming

In diesem Kapitel lernst du die gängigsten und am besten erforschten Wege kennen, Text zu analysieren. Du erstellst ein Textkorpus, erweiterst eine Bag-of-Words-Darstellung zu einer TFIDF-Matrix und nutzt Cosine-Similarity-Metriken, um zu bestimmen, wie ähnlich sich zwei Texte sind. Du baust damit deine Grundlagen für die Praxis von NLP aus, bevor du in Kapitel 3 und 4 in Anwendungen von NLP eintauchst.

Exercise 1: Ein R-Korpus verstehen Exercise 2: Einen R-Korpus erkunden Exercise 3: Ein Tibble aus einem Korpus erstellen Exercise 4: Ein Korpus erstellen Exercise 5: Die Bag-of-Words-Repräsentation Exercise 6: BoW üben Exercise 7: BoW-Beispiel Exercise 8: Sparse Matrizen Exercise 9: Der TFIDF Exercise 10: Manuelle Berechnungen Exercise 11: TFIDF-Übung Exercise 12: Kosinus-Ähnlichkeit Exercise 13: Ein Beispiel dafür, wie Textanalyse scheitern kann Exercise 14: Beispiel: Cosine Similarity

Kapitel 3 konzentriert sich auf zwei verbreitete Ansätze der Textanalyse: Klassifikationsmodelle und Topic Modeling. Wenn du an Projekten zur Textanalyse arbeitest, wirst du früher oder später eine oder beide Methoden einsetzen. Dieses Kapitel zeigt dir, wie du beide Techniken anwendest, und gibt dir Einblicke, wie du sie praktisch sinnvoll angehst.

Exercise 1: Text für das Modellieren vorbereiten Exercise 2: Datenvorbereitung Exercise 3: Seltene Terme entfernen Exercise 4: Klassifikationsmodellierung Exercise 5: Beispiel für Klassifikationsmodellierung Exercise 6: Konfusionsmatrizen Exercise 7: TFIDF-Tibble vs. DTM Exercise 8: Einführung in Topic Modeling Exercise 9: LDA-Übung Exercise 10: Themen Dokumenten zuweisen Exercise 11: LDA in der Praxis Exercise 12: Perplexity testen Exercise 13: LDA-Ergebnisse überprüfen

In Kapitel 4 behandeln wir zwei feste Größen des Natural Language Processing: Sentiment-Analyse und Word Embeddings. Diese beiden Analysetechniken gehören für alle, die die Grundlagen der Textanalyse lernen, einfach dazu. Außerdem erfährst du kurz etwas über BERT, Part-of-Speech-Tagging und Named Entity Recognition. In diesem Kurs wurden fast 15 verschiedene Analysetechniken abgedeckt, daher endet Kapitel 4 mit einer Zusammenfassung all der großartigen Techniken, die du in diesem Kurs kennenlernen wirst.

Exercise 1: Sentimentanalyse Exercise 2: tidytext-Lexika Exercise 3: Sentiment-Scores Exercise 4: Sentiment und Emotion

Aktuelle Übung

Exercise 5: Wort-Embeddings Exercise 6: h2o-Übung Exercise 7: word2vec Exercise 8: Zusätzliche NLP-Analysen Exercise 9: Methoden wiederholen #1 Exercise 10: Methoden wiederholen #2 Exercise 11: Fazit