Textspalte splitten und explodieren
Ein DataFrame clauses_df mit 100 Zeilen ist vorgegeben. Es hat eine Spalte clause und eine Zeilen-ID. Jede clause ist ein String mit einem oder mehreren Wörtern, die durch Leerzeichen getrennt sind.
Diese Übung ist Teil des Kurses
Einführung in Spark SQL mit Python
Anleitung zur Übung
- Splitte die Spalte
clausein eine Spalte namenswords, die ein Array einzelner Wörter enthält. - Explodiere die Spalte
wordsin eine Spalte namensword. - Zähle die resultierende Anzahl der Zeilen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Split the clause column into a column called words
split_df = clauses_df.select(____('clause', ' ').____('words'))
split_df.show(5, truncate=False)
# Explode the words column into a column called word
exploded_df = split_df.____(____('____').____('word'))
exploded_df.show(10)
# Count the resulting number of rows in exploded_df
print("\nNumber of rows: ", ____)