3.ª parte: visualización de datos

La visualización de datos es importante para el análisis exploratorio de datos (EDA). El DataFrame de PySpark es perfecto para la visualización de datos en comparación con los RDD debido a su estructura inherente y su esquema.

En esta tercera parte crearás un histograma de las edades de todos los jugadores de Alemania a partir del DataFrame que creaste en el ejercicio anterior. Para ello, primero convertirás el DataFrame de PySpark a Pandas DataFrame y utilizarás la función plot() de matplotlib para crear un gráfico de densidad de las edades de todos los jugadores de Alemania.

Recuerda que ya tienes spark de SparkSession, la tabla temporal fifa_df_table y el DataFrame fifa_df_germany_age disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones del ejercicio

Convierte fifa_df_germany_age al Pandas DataFrame fifa_df_germany_age_pandas.
Genera un gráfico de densidad de la columna "Age" del Pandas DataFrame fifa_df_germany_age_pandas.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Convert fifa_df to fifa_df_germany_age_pandas DataFrame
fifa_df_germany_age_pandas = fifa_df_germany_age.____()

# Plot the 'Age' density of Germany Players
____.plot(kind='density')
plt.show()

Editar y ejecutar código