Examinar filas no válidas
Has filtrado con éxito las filas mediante una unión, pero a veces te gustaría examinar los datos que no son válidos. Estos datos pueden almacenarse para procesarlos posteriormente o para solucionar problemas de tus fuentes de datos.
Quieres encontrar la diferencia entre dos DataFrames y almacenar las filas no válidas.
El objeto spark
se define y pyspark.sql.functions
se importan como F
. El DataFrame original split_df
y el DataFrame unido joined_df
están disponibles tal y como estaban en sus estados anteriores.
Este ejercicio forma parte del curso
Limpiar datos con PySpark
Instrucciones del ejercicio
- Determina el recuento de filas de cada Marco de datos.
- Crea un Marco de datos que contenga sólo las filas no válidas.
- Valida que el recuento del nuevo Marco de datos es el esperado.
- Determina el número de filas de carpetas distintas eliminadas.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Determine the row counts for each DataFrame
split_count = ____
joined_count = ____
# Create a DataFrame containing the invalid rows
invalid_df = split_df.____(____(joined_df), '____', '____')
# Validate the count of the new DataFrame is as expected
invalid_count = ____
print(" split_df:\t%d\n joined_df:\t%d\n invalid_df: \t%d" % (split_count, joined_count, invalid_count))
# Determine the number of distinct folder rows removed
invalid_folder_count = invalid_df.____('____').____.____
print("%d distinct invalid folders found" % invalid_folder_count)