Divide y expande una columna de texto
Se proporciona un dataframe clauses_df con 100 filas. Tiene una columna clause y un id de fila. Cada clause es una cadena con una o más palabras separadas por espacios.
Este ejercicio forma parte del curso
Introducción a Spark SQL en Python
Instrucciones del ejercicio
- Divide la columna
clauseen una columna llamadawords, que contenga un array de palabras individuales. - Expande la columna
wordsen una columna llamadaword. - Cuenta el número de filas resultante.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Split the clause column into a column called words
split_df = clauses_df.select(____('clause', ' ').____('words'))
split_df.show(5, truncate=False)
# Explode the words column into a column called word
exploded_df = split_df.____(____('____').____('word'))
exploded_df.show(10)
# Count the resulting number of rows in exploded_df
print("\nNumber of rows: ", ____)