ComeçarComece de graça

Dividir e explodir uma coluna de texto

Um dataframe clauses_df com 100 linhas é fornecido. Ele tem uma coluna clause e um id de linha. Cada clause é uma string contendo uma ou mais palavras separadas por espaços.

Este exercício faz parte do curso

Introdução ao Spark SQL em Python

Ver curso

Instruções do exercício

  • Divida a coluna clause em uma coluna chamada words, contendo um array de palavras individuais.
  • Exploda a coluna words em uma coluna chamada word.
  • Conte o número resultante de linhas.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Split the clause column into a column called words 
split_df = clauses_df.select(____('clause', ' ').____('words'))
split_df.show(5, truncate=False)

# Explode the words column into a column called word 
exploded_df = split_df.____(____('____').____('word'))
exploded_df.show(10)

# Count the resulting number of rows in exploded_df
print("\nNumber of rows: ", ____)
Editar e executar o código