ComeçarComece gratuitamente

Visualização de DataFrames do PySpark

As representações gráficas ou a visualização de dados são essenciais para a compreensão e a interpretação dos dados. Neste exercício simples de visualização de dados, você primeiro imprimirá os nomes das colunas do DataFrame names_df que criou anteriormente, depois converterá o names_df em um Pandas DataFrame e, por fim, plotará o conteúdo como um gráfico de barras horizontais com os nomes das pessoas no eixo x e a idade delas no eixo y.

Lembre-se de que você já tem um SparkSession spark e um DataFrame names_df disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver Curso

Instruções de exercício

  • Imprima os nomes das colunas no DataFrame names_df.
  • Converta o DataFrame names_df no Pandas DataFrame df_pandas.
  • Use o método plot() do matplotlib para criar um gráfico de barras horizontais com 'Name' no eixo x e 'Age' no eixo y.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Check the column names of names_df
print("The column names of names_df are", names_df.____)

# Convert to Pandas DataFrame  
df_pandas = names_df.____()

# Create a horizontal bar plot
____.plot(kind='barh', x='____', y='____', colormap='winter_r')
plt.show()
Editar e executar código