IniziaInizia gratis

Suddividi ed esplodi una colonna di testo

È fornito un dataframe clauses_df con 100 righe. Contiene una colonna clause e un id di riga. Ogni clause è una stringa con una o più parole separate da spazi.

Questo esercizio fa parte del corso

Introduzione a Spark SQL in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Suddividi la colonna clause in una colonna chiamata words, che contenga un array di singole parole.
  • Esegui l'explode della colonna words in una colonna chiamata word.
  • Conta il numero risultante di righe.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Split the clause column into a column called words 
split_df = clauses_df.select(____('clause', ' ').____('words'))
split_df.show(5, truncate=False)

# Explode the words column into a column called word 
exploded_df = split_df.____(____('____').____('word'))
exploded_df.show(10)

# Count the resulting number of rows in exploded_df
print("\nNumber of rows: ", ____)
Modifica ed esegui il codice