Das „oder“-Muster mit einem größeren Datensatz verwenden
Nachdem du das Prinzip verstanden hast, mehrere Möglichkeiten aus einem Vektor zu verketten, gehst du jetzt einen Schritt weiter und wendest das auf einen größeren Datensatz an. Im globalen Scope sind zwei Variablen verfügbar: articles und politicians. Die erste ist eine Sammlung von Nachrichtenartikeln zur Schweizer Politik. Die zweite ist eine Liste von Namen Schweizer Politikerinnen und Politiker, die in den Artikeln vorkommen.
Jetzt ist es deine Aufgabe herauszufinden, welche Namen in welchen Artikeln vorkommen und wie oft jede Politikerin bzw. jeder Politiker in allen Artikeln insgesamt erwähnt wird.
Diese Übung ist Teil des Kurses
Fortgeschrittene Reguläre Ausdrücke in R
Anleitung zur Übung
- Verwende den Vektor
politicians, um einen regulären Ausdruck zu erstellen, der auf alle Namen passt, die in diesem Vektor gespeichert sind. - Erstelle eine neue Spalte im Data Frame
articles, die alle Politikernamen enthält, die in der Spaltetextvorkommen. - Füge alle Artikel zusammen, damit du die Anzahl der Vorkommen pro Person einfacher zählen kannst.
- Verwende den Vektor
politiciansals Muster und übergib ihn anstr_count().
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Construct a pattern that searches for all politicians
polit_pattern <- glue_collapse(___, sep = "___")
# Use the pattern to match all names in the column "text"
articles %<>%
mutate(mentions = str_match_all(___, ___))
# Collapse all items of the column "text"
all_articles_in_one <- ___(articles$text)
# Pass the vector politicians to count all its elements
str_count(all_articles_in_one, ___)