Aan de slagGa gratis aan de slag

Splits en explodeer een tekstkolom

Er is een dataframe clauses_df met 100 rijen beschikbaar. Het heeft een kolom clause en een rij-id. Elke clause is een string met één of meer woorden, gescheiden door spaties.

Deze oefening maakt deel uit van de cursus

Introductie tot Spark SQL in Python

Cursus bekijken

Oefeninstructies

  • Splits de kolom clause in een kolom words met een array van losse woorden.
  • Explodeer de kolom words naar een kolom word.
  • Tel het resulterende aantal rijen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Split the clause column into a column called words 
split_df = clauses_df.select(____('clause', ' ').____('words'))
split_df.show(5, truncate=False)

# Explode the words column into a column called word 
exploded_df = split_df.____(____('____').____('word'))
exploded_df.show(10)

# Count the resulting number of rows in exploded_df
print("\nNumber of rows: ", ____)
Code bewerken en uitvoeren