Validar filas mediante join
Otro ejemplo de filtrado de datos es utilizar uniones para eliminar entradas no válidas. Tendrás que comprobar que los nombres de las carpetas son los esperados basándote en un determinado DataFrame llamado valid_folders_df
. El DataFrame split_df
está como lo dejaste la última vez, con un grupo de columnas divididas.
El objeto spark
está disponible, y pyspark.sql.functions
se importa como F
.
Este ejercicio forma parte del curso
Limpiar datos con PySpark
Instrucciones del ejercicio
- Cambia el nombre de la columna
_c0
afolder
en el Marco de Datosvalid_folders_df
. - Cuenta el número de filas en
split_df
. - Une los dos DataFrames en el nombre de la carpeta, y llama al DataFrame resultante
joined_df
. Asegúrate de difundir el Marco de datos más pequeño. - Comprueba el número de filas que quedan en el Marco de datos y compáralo.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Rename the column in valid_folders_df
valid_folders_df = ____
# Count the number of rows in split_df
split_count = ____
# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")
# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))