3.ª parte: visualización de datos
La visualización de datos es importante para el análisis exploratorio de datos (EDA). El DataFrame de PySpark es perfecto para la visualización de datos en comparación con los RDD debido a su estructura inherente y su esquema.
En esta tercera parte crearás un histograma de las edades de todos los jugadores de Alemania a partir del DataFrame que creaste en el ejercicio anterior. Para ello, primero convertirás el DataFrame de PySpark a Pandas DataFrame y utilizarás la función plot()
de matplotlib para crear un gráfico de densidad de las edades de todos los jugadores de Alemania.
Recuerda que ya tienes spark
de SparkSession, la tabla temporal fifa_df_table
y el DataFrame fifa_df_germany_age
disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones del ejercicio
- Convierte
fifa_df_germany_age
al Pandas DataFramefifa_df_germany_age_pandas
. - Genera un gráfico de densidad de la columna "Age" del Pandas DataFrame
fifa_df_germany_age_pandas
.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Convert fifa_df to fifa_df_germany_age_pandas DataFrame
fifa_df_germany_age_pandas = fifa_df_germany_age.____()
# Plot the 'Age' density of Germany Players
____.plot(kind='density')
plt.show()