Examinar filas no válidas

Has filtrado con éxito las filas mediante una unión, pero a veces te gustaría examinar los datos que no son válidos. Estos datos pueden almacenarse para procesarlos posteriormente o para solucionar problemas de tus fuentes de datos.

Quieres encontrar la diferencia entre dos DataFrames y almacenar las filas no válidas.

El objeto spark se define y pyspark.sql.functions se importan como F. El DataFrame original split_df y el DataFrame unido joined_df están disponibles tal y como estaban en sus estados anteriores.

Este ejercicio forma parte del curso

Limpiar datos con PySpark

Ver curso

Instrucciones del ejercicio

Determina el recuento de filas de cada Marco de datos.
Crea un Marco de datos que contenga sólo las filas no válidas.
Valida que el recuento del nuevo Marco de datos es el esperado.
Determina el número de filas de carpetas distintas eliminadas.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Determine the row counts for each DataFrame
split_count = ____
joined_count = ____

# Create a DataFrame containing the invalid rows
invalid_df = split_df.____(____(joined_df), '____', '____')

# Validate the count of the new DataFrame is as expected
invalid_count = ____
print(" split_df:\t%d\n joined_df:\t%d\n invalid_df: \t%d" % (split_count, joined_count, invalid_count))

# Determine the number of distinct folder rows removed
invalid_folder_count = invalid_df.____('____').____.____
print("%d distinct invalid folders found" % invalid_folder_count)

Editar y ejecutar código