ComenzarEmpieza gratis

Divide y expande una columna de texto

Se proporciona un dataframe clauses_df con 100 filas. Tiene una columna clause y un id de fila. Cada clause es una cadena con una o más palabras separadas por espacios.

Este ejercicio forma parte del curso

Introducción a Spark SQL en Python

Ver curso

Instrucciones del ejercicio

  • Divide la columna clause en una columna llamada words, que contenga un array de palabras individuales.
  • Expande la columna words en una columna llamada word.
  • Cuenta el número de filas resultante.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Split the clause column into a column called words 
split_df = clauses_df.select(____('clause', ' ').____('words'))
split_df.show(5, truncate=False)

# Explode the words column into a column called word 
exploded_df = split_df.____(____('____').____('word'))
exploded_df.show(10)

# Count the resulting number of rows in exploded_df
print("\nNumber of rows: ", ____)
Editar y ejecutar código