LDA-Übung

Du möchtest die häufigsten Themen rund um die Figur Napoleon in deinem neuen Lieblingsbuch, Animal Farm, untersuchen. Napoleon ist ein Schwein, das seine Kameraden davon überzeugt, ihre menschlichen Anführer zu stürzen. Schließlich wird er selbst der neue Anführer von Animal Farm.

Du hast alle Sätze extrahiert, in denen Napoleons Name erwähnt wird (pig_sentences), und daraus eine tokenisierte Version mit entfernten Stoppwörtern und durchgeführtem Stemming erstellt (pig_tokens). Führe LDA auf diesen Sätzen durch und sieh dir die wichtigsten Wörter an, die einigen der Topics zugeordnet sind.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit R</Kurs>

Übungsanweisungen

Führe LDA auf pig_matrix durch und identifiziere 10 Topics. Setze für die Reproduzierbarkeit den Zufalls-Seed auf 1111.
Extrahiere die Beta-Matrix aus den Ergebnissen.
Filtere die Beta-Matrix auf Topic 2 und sortiere die Werte in absteigender Reihenfolge der Beta-Werte.
Filtere die Beta-Matrix auf Topic 3 und sortiere die Werte in absteigender Reihenfolge der Beta-Werte.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

library(topicmodels)
# Perform Topic Modeling
sentence_lda <-
  ___(___, k = ___, method = 'Gibbs', control = list(seed = ___))
# Extract the beta matrix 
sentence_betas <- ___(sentence_lda, matrix = "___")

# Topic #2
sentence_betas %>%
  ___(topic == ___) %>%
  arrange(-___)
# Topic #3
sentence_betas %>%
  ___(topic == ___) %>%
  arrange(-___)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit R</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Kapitel 1 von Einführung in Natural Language Processing bereitet dich darauf vor, deine erste Analyse auf Text auszuführen. Du lernst reguläre Ausdrücke und Tokenisierung kennen – zwei der häufigsten Bausteine der meisten Analysen. Mit regulären Ausdrücken kannst du nach beliebigen Mustern suchen, und mit Tokenisierung bereitest du Text für anspruchsvollere Analysen auf. Dieses Kapitel ist die Grundlage, um die Techniken anzugehen, die wir in den restlichen Kapiteln dieses Kurses lernen.

Exercise 1: Grundlagen regulärer Ausdrücke Exercise 2: Syntax mit grep üben Exercise 3: Reguläre-Ausdruck-Funktionen erkunden.Exercise 4: Tokenisierung Exercise 5: tidytext-Funktionen Exercise 6: Tokenization: Sätze Exercise 7: Grundlagen der Textbereinigung Exercise 8: Textvorverarbeitung: Stoppwörter entfernen Exercise 9: Textvorverarbeitung: Stemming

In diesem Kapitel lernst du die gängigsten und am besten erforschten Wege kennen, Text zu analysieren. Du erstellst ein Textkorpus, erweiterst eine Bag-of-Words-Darstellung zu einer TFIDF-Matrix und nutzt Cosine-Similarity-Metriken, um zu bestimmen, wie ähnlich sich zwei Texte sind. Du baust damit deine Grundlagen für die Praxis von NLP aus, bevor du in Kapitel 3 und 4 in Anwendungen von NLP eintauchst.

Exercise 1: Ein R-Korpus verstehen Exercise 2: Einen R-Korpus erkunden Exercise 3: Ein Tibble aus einem Korpus erstellen Exercise 4: Ein Korpus erstellen Exercise 5: Die Bag-of-Words-Repräsentation Exercise 6: BoW üben Exercise 7: BoW-Beispiel Exercise 8: Sparse Matrizen Exercise 9: Der TFIDF Exercise 10: Manuelle Berechnungen Exercise 11: TFIDF-Übung Exercise 12: Kosinus-Ähnlichkeit Exercise 13: Ein Beispiel dafür, wie Textanalyse scheitern kann Exercise 14: Beispiel: Cosine Similarity

Kapitel 3 konzentriert sich auf zwei verbreitete Ansätze der Textanalyse: Klassifikationsmodelle und Topic Modeling. Wenn du an Projekten zur Textanalyse arbeitest, wirst du früher oder später eine oder beide Methoden einsetzen. Dieses Kapitel zeigt dir, wie du beide Techniken anwendest, und gibt dir Einblicke, wie du sie praktisch sinnvoll angehst.

Exercise 1: Text für das Modellieren vorbereiten Exercise 2: Datenvorbereitung Exercise 3: Seltene Terme entfernen Exercise 4: Klassifikationsmodellierung Exercise 5: Beispiel für Klassifikationsmodellierung Exercise 6: Konfusionsmatrizen Exercise 7: TFIDF-Tibble vs. DTM Exercise 8: Einführung in Topic Modeling Exercise 9: LDA-Übung

Aktuelle Übung

Exercise 10: Themen Dokumenten zuweisen Exercise 11: LDA in der Praxis Exercise 12: Perplexity testen Exercise 13: LDA-Ergebnisse überprüfen

In Kapitel 4 behandeln wir zwei feste Größen des Natural Language Processing: Sentiment-Analyse und Word Embeddings. Diese beiden Analysetechniken gehören für alle, die die Grundlagen der Textanalyse lernen, einfach dazu. Außerdem erfährst du kurz etwas über BERT, Part-of-Speech-Tagging und Named Entity Recognition. In diesem Kurs wurden fast 15 verschiedene Analysetechniken abgedeckt, daher endet Kapitel 4 mit einer Zusammenfassung all der großartigen Techniken, die du in diesem Kurs kennenlernen wirst.

Exercise 1: Sentimentanalyse Exercise 2: tidytext-Lexika Exercise 3: Sentiment-Scores Exercise 4: Sentiment und Emotion Exercise 5: Wort-Embeddings Exercise 6: h2o-Übung Exercise 7: word2vec Exercise 8: Zusätzliche NLP-Analysen Exercise 9: Methoden wiederholen #1 Exercise 10: Methoden wiederholen #2 Exercise 11: Fazit