ComeçarComece de graça

Parte 3: Visualização de dados

A visualização de dados é importante para a análise exploratória de dados (EDA). O PySpark DataFrame é perfeito para a visualização de dados em comparação com os RDDs devido à sua estrutura e esquema inerentes.

Nesta terceira parte, você criará um histograma das idades de todos os jogadores da Alemanha a partir do DataFrame que você criou no exercício anterior. Para isso, você primeiro converterá o PySpark DataFrame em Pandas DataFrame e usará a função plot() do matplotlib para criar um gráfico de densidade das idades de todos os jogadores da Alemanha.

Lembre-se de que você já tem uma SparkSession spark, uma tabela temporária fifa_df_table e um DataFrame fifa_df_germany_age disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver curso

Instruções do exercício

  • Converta fifa_df_germany_age para o Pandas DataFrame fifa_df_germany_age_pandas.
  • Gere um gráfico de densidade da coluna "Age" (Idade) do Pandas DataFrame fifa_df_germany_age_pandas.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Convert fifa_df to fifa_df_germany_age_pandas DataFrame
fifa_df_germany_age_pandas = fifa_df_germany_age.____()

# Plot the 'Age' density of Germany Players
____.plot(kind='density')
plt.show()
Editar e executar o código