Einen R-Korpus erkunden

Eine Kollegin bzw. ein Kollege hat einen Korpus mit 20 Dokumenten zum Thema Rohöl vorbereitet, genannt crude. Das ist nur eine Stichprobe von mehreren tausend Artikeln, die du nächste Woche erhältst. Um die Textanalyse auf diesen Dokumenten vorzubereiten, hast du beschlossen, ihren Inhalt und ihre Metadaten zu erkunden. Denk daran: In R enthält ein VCorpus sowohl meta als auch content zu jedem Text. In dieser Lektion erkundest du diese beiden Objekte.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit R</Kurs>

Übungsanweisungen

Gib crude aus und sieh dir die Ausgaben an.
Gib den Inhalt des 10. Artikels aus.
Gib die ID des ersten Artikels in crude aus.
Erstelle mit der vorgegebenen for-Schleife einen Vektor der IDs aus dem Korpus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Print out the corpus
print(___)

# Print the content of the 10th article
crude[[___]]$___

# Find the first ID
crude[[___]]$___$id

# Make a vector of IDs
ids <- c()
for(i in c(1:20)){
  ids <- append(ids, crude[[___]]$___$id)
}

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit R</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Kapitel 1 von Einführung in Natural Language Processing bereitet dich darauf vor, deine erste Analyse auf Text auszuführen. Du lernst reguläre Ausdrücke und Tokenisierung kennen – zwei der häufigsten Bausteine der meisten Analysen. Mit regulären Ausdrücken kannst du nach beliebigen Mustern suchen, und mit Tokenisierung bereitest du Text für anspruchsvollere Analysen auf. Dieses Kapitel ist die Grundlage, um die Techniken anzugehen, die wir in den restlichen Kapiteln dieses Kurses lernen.

Exercise 1: Grundlagen regulärer Ausdrücke Exercise 2: Syntax mit grep üben Exercise 3: Reguläre-Ausdruck-Funktionen erkunden.Exercise 4: Tokenisierung Exercise 5: tidytext-Funktionen Exercise 6: Tokenization: Sätze Exercise 7: Grundlagen der Textbereinigung Exercise 8: Textvorverarbeitung: Stoppwörter entfernen Exercise 9: Textvorverarbeitung: Stemming

In diesem Kapitel lernst du die gängigsten und am besten erforschten Wege kennen, Text zu analysieren. Du erstellst ein Textkorpus, erweiterst eine Bag-of-Words-Darstellung zu einer TFIDF-Matrix und nutzt Cosine-Similarity-Metriken, um zu bestimmen, wie ähnlich sich zwei Texte sind. Du baust damit deine Grundlagen für die Praxis von NLP aus, bevor du in Kapitel 3 und 4 in Anwendungen von NLP eintauchst.

Exercise 1: Ein R-Korpus verstehen Exercise 2: Einen R-Korpus erkunden

Aktuelle Übung

Exercise 3: Ein Tibble aus einem Korpus erstellen Exercise 4: Ein Korpus erstellen Exercise 5: Die Bag-of-Words-Repräsentation Exercise 6: BoW üben Exercise 7: BoW-Beispiel Exercise 8: Sparse Matrizen Exercise 9: Der TFIDF Exercise 10: Manuelle Berechnungen Exercise 11: TFIDF-Übung Exercise 12: Kosinus-Ähnlichkeit Exercise 13: Ein Beispiel dafür, wie Textanalyse scheitern kann Exercise 14: Beispiel: Cosine Similarity

Kapitel 3 konzentriert sich auf zwei verbreitete Ansätze der Textanalyse: Klassifikationsmodelle und Topic Modeling. Wenn du an Projekten zur Textanalyse arbeitest, wirst du früher oder später eine oder beide Methoden einsetzen. Dieses Kapitel zeigt dir, wie du beide Techniken anwendest, und gibt dir Einblicke, wie du sie praktisch sinnvoll angehst.

Exercise 1: Text für das Modellieren vorbereiten Exercise 2: Datenvorbereitung Exercise 3: Seltene Terme entfernen Exercise 4: Klassifikationsmodellierung Exercise 5: Beispiel für Klassifikationsmodellierung Exercise 6: Konfusionsmatrizen Exercise 7: TFIDF-Tibble vs. DTM Exercise 8: Einführung in Topic Modeling Exercise 9: LDA-Übung Exercise 10: Themen Dokumenten zuweisen Exercise 11: LDA in der Praxis Exercise 12: Perplexity testen Exercise 13: LDA-Ergebnisse überprüfen

In Kapitel 4 behandeln wir zwei feste Größen des Natural Language Processing: Sentiment-Analyse und Word Embeddings. Diese beiden Analysetechniken gehören für alle, die die Grundlagen der Textanalyse lernen, einfach dazu. Außerdem erfährst du kurz etwas über BERT, Part-of-Speech-Tagging und Named Entity Recognition. In diesem Kurs wurden fast 15 verschiedene Analysetechniken abgedeckt, daher endet Kapitel 4 mit einer Zusammenfassung all der großartigen Techniken, die du in diesem Kurs kennenlernen wirst.

Exercise 1: Sentimentanalyse Exercise 2: tidytext-Lexika Exercise 3: Sentiment-Scores Exercise 4: Sentiment und Emotion Exercise 5: Wort-Embeddings Exercise 6: h2o-Übung Exercise 7: word2vec Exercise 8: Zusätzliche NLP-Analysen Exercise 9: Methoden wiederholen #1 Exercise 10: Methoden wiederholen #2 Exercise 11: Fazit