LoslegenKostenlos starten

Textspalte splitten und explodieren

Ein DataFrame clauses_df mit 100 Zeilen ist vorgegeben. Es hat eine Spalte clause und eine Zeilen-ID. Jede clause ist ein String mit einem oder mehreren Wörtern, die durch Leerzeichen getrennt sind.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Spark SQL mit Python</Kurs>
Kurs ansehen

Übungsanweisungen

  • Splitte die Spalte clause in eine Spalte namens words, die ein Array einzelner Wörter enthält.
  • Explodiere die Spalte words in eine Spalte namens word.
  • Zähle die resultierende Anzahl der Zeilen.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Split the clause column into a column called words 
split_df = clauses_df.select(____('clause', ' ').____('words'))
split_df.show(5, truncate=False)

# Explode the words column into a column called word 
exploded_df = split_df.____(____('____').____('word'))
exploded_df.show(10)

# Count the resulting number of rows in exploded_df
print("\nNumber of rows: ", ____)
Code bearbeiten und ausführen