Ein Tibble aus einem Korpus erstellen

Um den Korpus mit Rohöldaten, den du von einer Kollegin oder einem Kollegen bekommen hast, weiter zu untersuchen, willst du eine Pipeline erstellen, die den Text in den Dokumenten bereinigt. Anstatt das mit dem Paket tm zu machen, wandelst du den Korpus in ein Tibble um, damit du die Funktionen unnest_tokens(), count() und anti_join() nutzen kannst, mit denen du bereits vertraut bist. Der Korpus crude enthält sowohl die Metadaten als auch den Text jedes Dokuments.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit R

Anleitung zur Übung

Wandle den Korpus in ein Tibble um.
Verwende names, um die Spaltennamen auszugeben.
Tokenisiere (wortweise), zähle und entferne Stoppwörter aus der Spalte text von crude_tibble.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)

crude_counts <- crude_tibble %>%
  # Tokenize by word 
  ___(___, text) %>%
  # Count by word
  ___(word, sort = TRUE) %>%
  # Remove stop words
  ___(stop_words)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit R

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Kapitel 1 von Einführung in Natural Language Processing bereitet dich darauf vor, deine erste Analyse auf Text auszuführen. Du lernst reguläre Ausdrücke und Tokenisierung kennen – zwei der häufigsten Bausteine der meisten Analysen. Mit regulären Ausdrücken kannst du nach beliebigen Mustern suchen, und mit Tokenisierung bereitest du Text für anspruchsvollere Analysen auf. Dieses Kapitel ist die Grundlage, um die Techniken anzugehen, die wir in den restlichen Kapiteln dieses Kurses lernen.

Exercise 1: Grundlagen regulärer Ausdrücke Exercise 2: Syntax mit grep üben Exercise 3: Reguläre-Ausdruck-Funktionen erkunden.Exercise 4: Tokenisierung Exercise 5: tidytext-Funktionen Exercise 6: Tokenization: Sätze Exercise 7: Grundlagen der Textbereinigung Exercise 8: Textvorverarbeitung: Stoppwörter entfernen Exercise 9: Textvorverarbeitung: Stemming

In diesem Kapitel lernst du die gängigsten und am besten erforschten Wege kennen, Text zu analysieren. Du erstellst ein Textkorpus, erweiterst eine Bag-of-Words-Darstellung zu einer TFIDF-Matrix und nutzt Cosine-Similarity-Metriken, um zu bestimmen, wie ähnlich sich zwei Texte sind. Du baust damit deine Grundlagen für die Praxis von NLP aus, bevor du in Kapitel 3 und 4 in Anwendungen von NLP eintauchst.

Exercise 1: Ein R-Korpus verstehen Exercise 2: Einen R-Korpus erkunden Exercise 3: Ein Tibble aus einem Korpus erstellen

Aktuelle Übung

Exercise 4: Ein Korpus erstellen Exercise 5: Die Bag-of-Words-Repräsentation Exercise 6: BoW üben Exercise 7: BoW-Beispiel Exercise 8: Sparse Matrizen Exercise 9: Der TFIDF Exercise 10: Manuelle Berechnungen Exercise 11: TFIDF-Übung Exercise 12: Kosinus-Ähnlichkeit Exercise 13: Ein Beispiel dafür, wie Textanalyse scheitern kann Exercise 14: Beispiel: Cosine Similarity

Kapitel 3 konzentriert sich auf zwei verbreitete Ansätze der Textanalyse: Klassifikationsmodelle und Topic Modeling. Wenn du an Projekten zur Textanalyse arbeitest, wirst du früher oder später eine oder beide Methoden einsetzen. Dieses Kapitel zeigt dir, wie du beide Techniken anwendest, und gibt dir Einblicke, wie du sie praktisch sinnvoll angehst.

Exercise 1: Text für das Modellieren vorbereiten Exercise 2: Datenvorbereitung Exercise 3: Seltene Terme entfernen Exercise 4: Klassifikationsmodellierung Exercise 5: Beispiel für Klassifikationsmodellierung Exercise 6: Konfusionsmatrizen Exercise 7: TFIDF-Tibble vs. DTM Exercise 8: Einführung in Topic Modeling Exercise 9: LDA-Übung Exercise 10: Themen Dokumenten zuweisen Exercise 11: LDA in der Praxis Exercise 12: Perplexity testen Exercise 13: LDA-Ergebnisse überprüfen

In Kapitel 4 behandeln wir zwei feste Größen des Natural Language Processing: Sentiment-Analyse und Word Embeddings. Diese beiden Analysetechniken gehören für alle, die die Grundlagen der Textanalyse lernen, einfach dazu. Außerdem erfährst du kurz etwas über BERT, Part-of-Speech-Tagging und Named Entity Recognition. In diesem Kurs wurden fast 15 verschiedene Analysetechniken abgedeckt, daher endet Kapitel 4 mit einer Zusammenfassung all der großartigen Techniken, die du in diesem Kurs kennenlernen wirst.

Exercise 1: Sentimentanalyse Exercise 2: tidytext-Lexika Exercise 3: Sentiment-Scores Exercise 4: Sentiment und Emotion Exercise 5: Wort-Embeddings Exercise 6: h2o-Übung Exercise 7: word2vec Exercise 8: Zusätzliche NLP-Analysen Exercise 9: Methoden wiederholen #1 Exercise 10: Methoden wiederholen #2 Exercise 11: Fazit