LoslegenKostenlos loslegen

Mehr als Worte: Tokenisierung (3)

ft_tokenizer() verwendet eine einfache Technik, um Wörter zu erzeugen, indem Textdaten an Leerzeichen getrennt werden. Für fortgeschrittene Anwendungsfälle kannst du reguläre Ausdrücke verwenden, um die Textdaten zu splitten. Das geschieht über die Funktion ft_regex_tokenizer(), die genau wie ft_tokenizer() verwendet wird, aber ein zusätzliches Argument pattern für den Trenner hat.

a_tibble %>%
  ft_regex_tokenizer("x", "y", pattern = regex_pattern)

Der Rückgabewert von ft_regex_tokenizer() ist, wie bei ft_tokenizer(), eine Liste von Listen aus Zeichenvektoren.

Der Datensatz enthält ein Feld namens artist_mbid, das eine ID der Künstlerin bzw. des Künstlers auf MusicBrainz (einer Website für Musikmetadaten) enthält. Die IDs bestehen aus hexadezimalen Zahlen, die durch Bindestriche getrennt sind, zum Beispiel 65b785d9-499f-48e6-9063-3a1fd1bd488d.

Diese Übung ist Teil des Kurses

Einführung in Spark mit sparklyr in R

Kurs anzeigen

Anleitung zur Übung

  • Wähle das Feld artist_mbid aus track_metadata_tbl.
  • Teile die MusicBrainz-IDs in Blöcke aus hexadezimalen Zahlen.
    • Rufe ft_regex_tokenizer() auf.
    • Die Ausgabespalte soll artist_mbid_chunks heißen.
    • Verwende für das Argument pattern einen Bindestrich, -.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

track_metadata_tbl %>%
  # Select artist_mbid column
  ___ %>%
  # Split it by hyphens
  ___
Code bearbeiten und ausführen