Textspalte splitten und explodieren
Ein DataFrame clauses_df mit 100 Zeilen ist vorgegeben. Es hat eine Spalte clause und eine Zeilen-ID. Jede clause ist ein String mit einem oder mehreren Wörtern, die durch Leerzeichen getrennt sind.
Diese Übung ist Teil des Kurses
<Kurs>Einführung in Spark SQL mit Python</Kurs>Übungsanweisungen
- Splitte die Spalte
clausein eine Spalte namenswords, die ein Array einzelner Wörter enthält. - Explodiere die Spalte
wordsin eine Spalte namensword. - Zähle die resultierende Anzahl der Zeilen.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Split the clause column into a column called words
split_df = clauses_df.select(____('clause', ' ').____('words'))
split_df.show(5, truncate=False)
# Explode the words column into a column called word
exploded_df = split_df.____(____('____').____('word'))
exploded_df.show(10)
# Count the resulting number of rows in exploded_df
print("\nNumber of rows: ", ____)