ComenzarEmpieza gratis

Visualización del DataFrame de PySpark

Las representaciones gráficas o visualización de datos son imprescindibles para comprender e interpretar los datos. En este sencillo ejercicio de visualización de datos imprimirás primero los nombres de columna del DataFrame names_df que creaste anteriormente; a continuación, convertirás names_df a Pandas DataFrame y, finalmente, representarás el contenido en forma de diagrama de barras horizontales con los nombres de las personas en el eje x y su edad en el eje y.

Recuerda que ya tienes spark de SparkSession y el DataFrame names_df disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones de ejercicio

  • Imprime los nombres de las columnas del DataFrame names_df.
  • Convierte el DataFrame names_df al Pandas DataFrame df_pandas.
  • Utiliza el método plot() de matplotlib para crear un diagrama de barras horizontales con 'Name' en el eje x y 'Age' en el eje y.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Check the column names of names_df
print("The column names of names_df are", names_df.____)

# Convert to Pandas DataFrame  
df_pandas = names_df.____()

# Create a horizontal bar plot
____.plot(kind='barh', x='____', y='____', colormap='winter_r')
plt.show()
Editar y ejecutar código