Suddividi ed esplodi una colonna di testo
È fornito un dataframe clauses_df con 100 righe. Contiene una colonna clause e un id di riga. Ogni clause è una stringa con una o più parole separate da spazi.
Questo esercizio fa parte del corso
Introduzione a Spark SQL in Python
Istruzioni dell'esercizio
- Suddividi la colonna
clausein una colonna chiamatawords, che contenga un array di singole parole. - Esegui l'explode della colonna
wordsin una colonna chiamataword. - Conta il numero risultante di righe.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Split the clause column into a column called words
split_df = clauses_df.select(____('clause', ' ').____('words'))
split_df.show(5, truncate=False)
# Explode the words column into a column called word
exploded_df = split_df.____(____('____').____('word'))
exploded_df.show(10)
# Count the resulting number of rows in exploded_df
print("\nNumber of rows: ", ____)