ComenzarEmpieza gratis

Creación de subconjuntos y limpieza en el DataFrame de PySpark

Tras la inspección de los datos, a menudo es necesario limpiar los datos, lo que implica principalmente hacer subconjuntos, cambiar el nombre de las columnas, eliminar filas duplicadas, etc. La API DataFrame de PySpark proporciona varios operadores para hacerlo. En este ejercicio, tu trabajo consiste en hacer subconjuntos de las columnas "name", "sex" y "date of birth" del DataFrame people_df, eliminar las filas duplicadas de ese conjunto de datos y contar el número de filas antes y después del paso de eliminación de duplicados.

Recuerda que ya tienes spark de SparkSession y el DataFrame people_df disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones de ejercicio

  • Selecciona las columnas "name", "sex" y "date of birth" de people_df y crea el DataFrame people_df_sub.
  • Imprime las 10 primeras observaciones del DataFrame people_df_sub.
  • Elimina las entradas duplicadas del DataFrame people_df_sub y crea el DataFrame people_df_sub_nodup.
  • ¿Cuántas filas hay antes y después de eliminar los duplicados?

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Select name, sex and date of birth columns
people_df_sub = people_df.____('name', ____, ____)

# Print the first 10 observations from people_df_sub
people_df_sub.____(____)

# Remove duplicate entries from people_df_sub
people_df_sub_nodup = people_df_sub.____()

# Count the number of rows
print("There were {} rows before removing duplicates, and {} rows after removing duplicates".format(people_df_sub.____(), people_df_sub_nodup.____()))
Editar y ejecutar código