LoslegenKostenlos starten

Mehr als Worte: Tokenisierung (3)

ft_tokenizer() verwendet eine einfache Technik, um Wörter zu erzeugen, indem Textdaten an Leerzeichen getrennt werden. Für fortgeschrittene Anwendungsfälle kannst du reguläre Ausdrücke verwenden, um die Textdaten zu splitten. Das geschieht über die Funktion ft_regex_tokenizer(), die genau wie ft_tokenizer() verwendet wird, aber ein zusätzliches Argument pattern für den Trenner hat.

a_tibble %>%
  ft_regex_tokenizer("x", "y", pattern = regex_pattern)

Der Rückgabewert von ft_regex_tokenizer() ist, wie bei ft_tokenizer(), eine Liste von Listen aus Zeichenvektoren.

Der Datensatz enthält ein Feld namens artist_mbid, das eine ID der Künstlerin bzw. des Künstlers auf MusicBrainz (einer Website für Musikmetadaten) enthält. Die IDs bestehen aus hexadezimalen Zahlen, die durch Bindestriche getrennt sind, zum Beispiel 65b785d9-499f-48e6-9063-3a1fd1bd488d.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Spark mit sparklyr in R</Kurs>
Kurs ansehen

Übungsanweisungen

  • Wähle das Feld artist_mbid aus track_metadata_tbl.
  • Teile die MusicBrainz-IDs in Blöcke aus hexadezimalen Zahlen.
    • Rufe ft_regex_tokenizer() auf.
    • Die Ausgabespalte soll artist_mbid_chunks heißen.
    • Verwende für das Argument pattern einen Bindestrich, -.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

track_metadata_tbl %>%
  # Select artist_mbid column
  ___ %>%
  # Split it by hyphens
  ___
Code bearbeiten und ausführen