TFIDF-Übung

Vorhin hast du dir eine Bag-of-Words-Darstellung von Artikeln über Rohöl angesehen. Die Berechnung von TFIDF-Werten basiert auf dieser Darstellung, berücksichtigt aber zusätzlich, wie oft ein Wort in einem Artikel vorkommt und wie oft dieses Wort in der Artikelsammlung insgesamt vorkommt.

Um herauszufinden, wie aussagekräftig Wörter beim Vergleich verschiedener Artikel sind, berechne die TFIDF-Gewichte für die Wörter in crude, einer Sammlung von 20 Artikeln über Rohöl.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit R</Kurs>

Übungsanweisungen

Berechne die TFIDF-Werte für crude nach article_id und nach word. Speichere das entstehende Tibble als crude_weights.
Sortiere crude_weights mit der Funktion arrange() absteigend nach den tf_idf-Werten.
Filtere crude_weights auf die kleinsten von null verschiedenen tf_idf-Werte. Verwende dafür erneut die Funktion arrange.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create a tibble with TFIDF values
___ <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(article_id, word) %>%
  ___(___, ___, n)

# Find the highest TFIDF values
crude_weights %>%
  ___(desc(___))

# Find the lowest non-zero TFIDF values
crude_weights %>%
  filter(___ != ___) %>%
  ___(___)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit R</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Kapitel 1 von Einführung in Natural Language Processing bereitet dich darauf vor, deine erste Analyse auf Text auszuführen. Du lernst reguläre Ausdrücke und Tokenisierung kennen – zwei der häufigsten Bausteine der meisten Analysen. Mit regulären Ausdrücken kannst du nach beliebigen Mustern suchen, und mit Tokenisierung bereitest du Text für anspruchsvollere Analysen auf. Dieses Kapitel ist die Grundlage, um die Techniken anzugehen, die wir in den restlichen Kapiteln dieses Kurses lernen.

Exercise 1: Grundlagen regulärer Ausdrücke Exercise 2: Syntax mit grep üben Exercise 3: Reguläre-Ausdruck-Funktionen erkunden.Exercise 4: Tokenisierung Exercise 5: tidytext-Funktionen Exercise 6: Tokenization: Sätze Exercise 7: Grundlagen der Textbereinigung Exercise 8: Textvorverarbeitung: Stoppwörter entfernen Exercise 9: Textvorverarbeitung: Stemming

In diesem Kapitel lernst du die gängigsten und am besten erforschten Wege kennen, Text zu analysieren. Du erstellst ein Textkorpus, erweiterst eine Bag-of-Words-Darstellung zu einer TFIDF-Matrix und nutzt Cosine-Similarity-Metriken, um zu bestimmen, wie ähnlich sich zwei Texte sind. Du baust damit deine Grundlagen für die Praxis von NLP aus, bevor du in Kapitel 3 und 4 in Anwendungen von NLP eintauchst.

Exercise 1: Ein R-Korpus verstehen Exercise 2: Einen R-Korpus erkunden Exercise 3: Ein Tibble aus einem Korpus erstellen Exercise 4: Ein Korpus erstellen Exercise 5: Die Bag-of-Words-Repräsentation Exercise 6: BoW üben Exercise 7: BoW-Beispiel Exercise 8: Sparse Matrizen Exercise 9: Der TFIDF Exercise 10: Manuelle Berechnungen Exercise 11: TFIDF-Übung

Aktuelle Übung

Exercise 12: Kosinus-Ähnlichkeit Exercise 13: Ein Beispiel dafür, wie Textanalyse scheitern kann Exercise 14: Beispiel: Cosine Similarity

Kapitel 3 konzentriert sich auf zwei verbreitete Ansätze der Textanalyse: Klassifikationsmodelle und Topic Modeling. Wenn du an Projekten zur Textanalyse arbeitest, wirst du früher oder später eine oder beide Methoden einsetzen. Dieses Kapitel zeigt dir, wie du beide Techniken anwendest, und gibt dir Einblicke, wie du sie praktisch sinnvoll angehst.

Exercise 1: Text für das Modellieren vorbereiten Exercise 2: Datenvorbereitung Exercise 3: Seltene Terme entfernen Exercise 4: Klassifikationsmodellierung Exercise 5: Beispiel für Klassifikationsmodellierung Exercise 6: Konfusionsmatrizen Exercise 7: TFIDF-Tibble vs. DTM Exercise 8: Einführung in Topic Modeling Exercise 9: LDA-Übung Exercise 10: Themen Dokumenten zuweisen Exercise 11: LDA in der Praxis Exercise 12: Perplexity testen Exercise 13: LDA-Ergebnisse überprüfen

In Kapitel 4 behandeln wir zwei feste Größen des Natural Language Processing: Sentiment-Analyse und Word Embeddings. Diese beiden Analysetechniken gehören für alle, die die Grundlagen der Textanalyse lernen, einfach dazu. Außerdem erfährst du kurz etwas über BERT, Part-of-Speech-Tagging und Named Entity Recognition. In diesem Kurs wurden fast 15 verschiedene Analysetechniken abgedeckt, daher endet Kapitel 4 mit einer Zusammenfassung all der großartigen Techniken, die du in diesem Kurs kennenlernen wirst.

Exercise 1: Sentimentanalyse Exercise 2: tidytext-Lexika Exercise 3: Sentiment-Scores Exercise 4: Sentiment und Emotion Exercise 5: Wort-Embeddings Exercise 6: h2o-Übung Exercise 7: word2vec Exercise 8: Zusätzliche NLP-Analysen Exercise 9: Methoden wiederholen #1 Exercise 10: Methoden wiederholen #2 Exercise 11: Fazit