ComenzarEmpieza gratis

Examinar filas no válidas

Has filtrado con éxito las filas mediante una unión, pero a veces te gustaría examinar los datos que no son válidos. Estos datos pueden almacenarse para procesarlos posteriormente o para solucionar problemas de tus fuentes de datos.

Quieres encontrar la diferencia entre dos DataFrames y almacenar las filas no válidas.

El objeto spark se define y pyspark.sql.functions se importan como F. El DataFrame original split_df y el DataFrame unido joined_df están disponibles tal y como estaban en sus estados anteriores.

Este ejercicio forma parte del curso

Limpiar datos con PySpark

Ver curso

Instrucciones del ejercicio

  • Determina el recuento de filas de cada Marco de datos.
  • Crea un Marco de datos que contenga sólo las filas no válidas.
  • Valida que el recuento del nuevo Marco de datos es el esperado.
  • Determina el número de filas de carpetas distintas eliminadas.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Determine the row counts for each DataFrame
split_count = ____
joined_count = ____

# Create a DataFrame containing the invalid rows
invalid_df = split_df.____(____(joined_df), '____', '____')

# Validate the count of the new DataFrame is as expected
invalid_count = ____
print(" split_df:\t%d\n joined_df:\t%d\n invalid_df: \t%d" % (split_count, joined_count, invalid_count))

# Determine the number of distinct folder rows removed
invalid_folder_count = invalid_df.____('____').____.____
print("%d distinct invalid folders found" % invalid_folder_count)
Editar y ejecutar código