Valider les lignes via la jointure

Un autre exemple de filtrage des données consiste à utiliser des jointures pour supprimer les entrées non valides. Vous devrez vérifier que les noms de dossiers sont conformes aux attentes, sur la base d'un DataFrame donné nommé valid_folders_df. Le DataFrame split_df est tel que vous l'avez laissé la dernière fois avec un groupe de colonnes scindées.

L'objet spark est disponible et pyspark.sql.functions est importé en tant que F.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

Renommez la colonne _c0 en folder dans le DataFrame valid_folders_df.
Comptez le nombre de lignes dans split_df.
Joignez les deux DataFrame sur le nom du dossier et appelez le DataFrame résultant joined_df. Veillez à diffuser le DataFrame le plus petit.
Vérifiez le nombre de lignes restantes dans le DataFrame et comparez.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Rename the column in valid_folders_df
valid_folders_df = ____

# Count the number of rows in split_df
split_count = ____

# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")

# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))

Modifier et exécuter le code