Inspección de datos en el DataFrame de PySpark
Inspeccionar los datos es crucial antes de realizar análisis como la representación gráfica, la modelización, el entrenamiento, etc. En este sencillo ejercicio inspeccionarás los datos del DataFrame people_df
que creaste en el ejercicio anterior utilizando operadores básicos de DataFrame.
Recuerda que ya tienes spark
de SparkSession y el DataFrame people_df
disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones de ejercicio
- Imprime las 10 primeras observaciones del DataFrame
people_df
. - Cuenta el número de filas del DataFrame
people_df
. - ¿Cuántas columnas tiene el DataFrame
people_df
y cuáles son sus nombres?
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Print the first 10 observations
people_df.____(10)
# Count the number of rows
print("There are {} rows in the people_df DataFrame.".format(people_df.____()))
# Count the number of columns and print their names
print("There are {} columns in the people_df DataFrame and their names are {}".format(len(people_df.____), people_df.____))