LoslegenKostenlos loslegen

Textspalte splitten und explodieren

Ein DataFrame clauses_df mit 100 Zeilen ist vorgegeben. Es hat eine Spalte clause und eine Zeilen-ID. Jede clause ist ein String mit einem oder mehreren Wörtern, die durch Leerzeichen getrennt sind.

Diese Übung ist Teil des Kurses

Einführung in Spark SQL mit Python

Kurs anzeigen

Anleitung zur Übung

  • Splitte die Spalte clause in eine Spalte namens words, die ein Array einzelner Wörter enthält.
  • Explodiere die Spalte words in eine Spalte namens word.
  • Zähle die resultierende Anzahl der Zeilen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Split the clause column into a column called words 
split_df = clauses_df.select(____('clause', ' ').____('words'))
split_df.show(5, truncate=False)

# Explode the words column into a column called word 
exploded_df = split_df.____(____('____').____('word'))
exploded_df.show(10)

# Count the resulting number of rows in exploded_df
print("\nNumber of rows: ", ____)
Code bearbeiten und ausführen