Visualización del DataFrame de PySpark
Las representaciones gráficas o visualización de datos son imprescindibles para comprender e interpretar los datos. En este sencillo ejercicio de visualización de datos imprimirás primero los nombres de columna del DataFrame names_df
que creaste anteriormente; a continuación, convertirás names_df
a Pandas DataFrame y, finalmente, representarás el contenido en forma de diagrama de barras horizontales con los nombres de las personas en el eje x y su edad en el eje y.
Recuerda que ya tienes spark
de SparkSession y el DataFrame names_df
disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones de ejercicio
- Imprime los nombres de las columnas del DataFrame
names_df
. - Convierte el DataFrame
names_df
al Pandas DataFramedf_pandas
. - Utiliza el método
plot()
de matplotlib para crear un diagrama de barras horizontales con'Name'
en el eje x y'Age'
en el eje y.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Check the column names of names_df
print("The column names of names_df are", names_df.____)
# Convert to Pandas DataFrame
df_pandas = names_df.____()
# Create a horizontal bar plot
____.plot(kind='barh', x='____', y='____', colormap='winter_r')
plt.show()