Validar filas mediante join

Otro ejemplo de filtrado de datos es utilizar uniones para eliminar entradas no válidas. Tendrás que comprobar que los nombres de las carpetas son los esperados basándote en un determinado DataFrame llamado valid_folders_df. El DataFrame split_df está como lo dejaste la última vez, con un grupo de columnas divididas.

El objeto spark está disponible, y pyspark.sql.functions se importa como F.

Este ejercicio forma parte del curso

Limpiar datos con PySpark

Ver curso

Instrucciones del ejercicio

Cambia el nombre de la columna _c0 a folder en el Marco de Datos valid_folders_df.
Cuenta el número de filas en split_df.
Une los dos DataFrames en el nombre de la carpeta, y llama al DataFrame resultante joined_df. Asegúrate de difundir el Marco de datos más pequeño.
Comprueba el número de filas que quedan en el Marco de datos y compáralo.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Rename the column in valid_folders_df
valid_folders_df = ____

# Count the number of rows in split_df
split_count = ____

# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")

# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))

Editar y ejecutar código