Mehr als Worte: Tokenisierung (3)
ft_tokenizer() verwendet eine einfache Technik, um Wörter zu erzeugen, indem Textdaten an Leerzeichen getrennt werden. Für fortgeschrittene Anwendungsfälle kannst du reguläre Ausdrücke verwenden, um die Textdaten zu splitten. Das geschieht über die Funktion ft_regex_tokenizer(), die genau wie ft_tokenizer() verwendet wird, aber ein zusätzliches Argument pattern für den Trenner hat.
a_tibble %>%
ft_regex_tokenizer("x", "y", pattern = regex_pattern)
Der Rückgabewert von ft_regex_tokenizer() ist, wie bei ft_tokenizer(), eine Liste von Listen aus Zeichenvektoren.
Der Datensatz enthält ein Feld namens artist_mbid, das eine ID der Künstlerin bzw. des Künstlers auf MusicBrainz (einer Website für Musikmetadaten) enthält. Die IDs bestehen aus hexadezimalen Zahlen, die durch Bindestriche getrennt sind, zum Beispiel 65b785d9-499f-48e6-9063-3a1fd1bd488d.
Diese Übung ist Teil des Kurses
Einführung in Spark mit sparklyr in R
Anleitung zur Übung
- Wähle das Feld
artist_mbidaustrack_metadata_tbl. - Teile die MusicBrainz-IDs in Blöcke aus hexadezimalen Zahlen.
- Rufe
ft_regex_tokenizer()auf. - Die Ausgabespalte soll
artist_mbid_chunksheißen. - Verwende für das Argument
patterneinen Bindestrich,-.
- Rufe
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
track_metadata_tbl %>%
# Select artist_mbid column
___ %>%
# Split it by hyphens
___