Subconjunto y limpieza de PySpark DataFrame

Tras la inspección de los datos, a menudo es necesario limpiarlos, lo que implica principalmente subconjuntarlos, renombrar las columnas, eliminar filas duplicadas, etc. PySpark DataFrame API proporciona varios operadores para hacerlo. En este ejercicio, su tarea es subconjuntar las columnas 'nombre', 'sexo' y 'fecha de nacimiento' de people_df DataFrame, eliminar cualquier fila duplicada de ese conjunto de datos y contar el número de filas antes y después del paso de eliminación de duplicados.

Recuerde que ya tiene una SparkSession spark y un DataFrame people_df disponibles en su espacio de trabajo.

Seleccione las columnas 'nombre', 'sexo' y 'fecha de nacimiento' de people_df y cree people_df_sub DataFrame.
Imprime las 10 primeras observaciones del DataFrame people_df_sub.
Elimine las entradas duplicadas de people_df_sub DataFrame y cree people_df_sub_nodup DataFrame.
¿Cuántas filas hay antes y después de eliminar los duplicados?

Introducción al análisis de Big Data con Spark

Programación en PySpark RDD's

PySpark SQL y DataFrames

Aprendizaje automático con PySpark MLlib

Ejercicio

Subconjunto y limpieza de PySpark DataFrame

Instrucciones