Visualização de DataFrames do PySpark
As representações gráficas ou a visualização de dados são essenciais para a compreensão e a interpretação dos dados. Neste exercício simples de visualização de dados, você primeiro imprimirá os nomes das colunas do DataFrame names_df
que criou anteriormente, depois converterá o names_df
em um Pandas DataFrame e, por fim, plotará o conteúdo como um gráfico de barras horizontais com os nomes das pessoas no eixo x e a idade delas no eixo y.
Lembre-se de que você já tem um SparkSession spark
e um DataFrame names_df
disponíveis em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções de exercício
- Imprima os nomes das colunas no DataFrame
names_df
. - Converta o DataFrame
names_df
no Pandas DataFramedf_pandas
. - Use o método
plot()
do matplotlib para criar um gráfico de barras horizontais com'Name'
no eixo x e'Age'
no eixo y.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Check the column names of names_df
print("The column names of names_df are", names_df.____)
# Convert to Pandas DataFrame
df_pandas = names_df.____()
# Create a horizontal bar plot
____.plot(kind='barh', x='____', y='____', colormap='winter_r')
plt.show()