Parte 3: Visualização de dados
A visualização de dados é importante para a análise exploratória de dados (EDA). O PySpark DataFrame é perfeito para a visualização de dados em comparação com os RDDs devido à sua estrutura e esquema inerentes.
Nesta terceira parte, você criará um histograma das idades de todos os jogadores da Alemanha a partir do DataFrame que você criou no exercício anterior. Para isso, você primeiro converterá o PySpark DataFrame em Pandas DataFrame e usará a função plot()
do matplotlib para criar um gráfico de densidade das idades de todos os jogadores da Alemanha.
Lembre-se de que você já tem uma SparkSession spark
, uma tabela temporária fifa_df_table
e um DataFrame fifa_df_germany_age
disponíveis em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções do exercício
- Converta
fifa_df_germany_age
para o Pandas DataFramefifa_df_germany_age_pandas
. - Gere um gráfico de densidade da coluna "Age" (Idade) do Pandas DataFrame
fifa_df_germany_age_pandas
.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Convert fifa_df to fifa_df_germany_age_pandas DataFrame
fifa_df_germany_age_pandas = fifa_df_germany_age.____()
# Plot the 'Age' density of Germany Players
____.plot(kind='density')
plt.show()