Scinder et éclater une colonne de texte
Un dataframe clauses_df de 100 lignes est fourni. Il comporte une colonne clause et un identifiant de ligne. Chaque clause est une chaîne contenant un ou plusieurs mots séparés par des espaces.
Cet exercice fait partie du cours
Introduction à Spark SQL en Python
Instructions
- Scindez la colonne
clauseen une colonne appeléewords, contenant un tableau de mots individuels. - Éclatez la colonne
wordsen une colonne appeléeword. - Comptez le nombre de lignes obtenu.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Split the clause column into a column called words
split_df = clauses_df.select(____('clause', ' ').____('words'))
split_df.show(5, truncate=False)
# Explode the words column into a column called word
exploded_df = split_df.____(____('____').____('word'))
exploded_df.show(10)
# Count the resulting number of rows in exploded_df
print("\nNumber of rows: ", ____)