Splits en explodeer een tekstkolom
Er is een dataframe clauses_df met 100 rijen beschikbaar. Het heeft een kolom clause en een rij-id. Elke clause is een string met één of meer woorden, gescheiden door spaties.
Deze oefening maakt deel uit van de cursus
Introductie tot Spark SQL in Python
Oefeninstructies
- Splits de kolom
clausein een kolomwordsmet een array van losse woorden. - Explodeer de kolom
wordsnaar een kolomword. - Tel het resulterende aantal rijen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Split the clause column into a column called words
split_df = clauses_df.select(____('clause', ' ').____('words'))
split_df.show(5, truncate=False)
# Explode the words column into a column called word
exploded_df = split_df.____(____('____').____('word'))
exploded_df.show(10)
# Count the resulting number of rows in exploded_df
print("\nNumber of rows: ", ____)