Dividir e explodir uma coluna de texto
Um dataframe clauses_df com 100 linhas é fornecido. Ele tem uma coluna clause e um id de linha. Cada clause é uma string contendo uma ou mais palavras separadas por espaços.
Este exercício faz parte do curso
Introdução ao Spark SQL em Python
Instruções do exercício
- Divida a coluna
clauseem uma coluna chamadawords, contendo um array de palavras individuais. - Exploda a coluna
wordsem uma coluna chamadaword. - Conte o número resultante de linhas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Split the clause column into a column called words
split_df = clauses_df.select(____('clause', ' ').____('words'))
split_df.show(5, truncate=False)
# Explode the words column into a column called word
exploded_df = split_df.____(____('____').____('word'))
exploded_df.show(10)
# Count the resulting number of rows in exploded_df
print("\nNumber of rows: ", ____)