CommencerCommencer gratuitement

Scinder et éclater une colonne de texte

Un dataframe clauses_df de 100 lignes est fourni. Il comporte une colonne clause et un identifiant de ligne. Chaque clause est une chaîne contenant un ou plusieurs mots séparés par des espaces.

Cet exercice fait partie du cours

Introduction à Spark SQL en Python

Afficher le cours

Instructions

  • Scindez la colonne clause en une colonne appelée words, contenant un tableau de mots individuels.
  • Éclatez la colonne words en une colonne appelée word.
  • Comptez le nombre de lignes obtenu.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Split the clause column into a column called words 
split_df = clauses_df.select(____('clause', ' ').____('words'))
split_df.show(5, truncate=False)

# Explode the words column into a column called word 
exploded_df = split_df.____(____('____').____('word'))
exploded_df.show(10)

# Count the resulting number of rows in exploded_df
print("\nNumber of rows: ", ____)
Modifier et exécuter le code