CommencerCommencer gratuitement

Valider les lignes via une jointure

Un autre moyen de filtrer des données consiste à utiliser des jointures pour supprimer les entrées invalides. Vous devez vérifier que les noms de dossiers sont conformes aux attentes en vous basant sur un DataFrame nommé valid_folders_df. Le DataFrame split_df est resté tel que vous l’avez laissé, avec un ensemble de colonnes issues du découpage.

L’objet spark est disponible, et pyspark.sql.functions est importé sous le nom F.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

  • Renommez la colonne _c0 en folder dans le DataFrame valid_folders_df.
  • Comptez le nombre de lignes dans split_df.
  • Faites une jointure des deux DataFrames sur le nom du dossier et appelez le DataFrame obtenu joined_df. Assurez-vous de diffuser (broadcast) le DataFrame le plus petit.
  • Vérifiez le nombre de lignes restantes dans le DataFrame et comparez.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Rename the column in valid_folders_df
valid_folders_df = ____

# Count the number of rows in split_df
split_count = ____

# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")

# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))
Modifier et exécuter le code