Deel 3: Gegevens visualiseren
Datavisualisatie is belangrijk voor exploratieve data-analyse (EDA). Een PySpark DataFrame is hiervoor geschikter dan RDD’s vanwege de ingebouwde structuur en het schema.
In dit derde deel maak je een histogram van de leeftijden van alle spelers uit Duitsland, uit het DataFrame dat je in de vorige oefening hebt gemaakt. Hiervoor zet je eerst het PySpark DataFrame om naar een Pandas DataFrame en gebruik je vervolgens de plot()-functie van matplotlib om een dichtheidsplot te maken van de leeftijden van alle spelers uit Duitsland.
Onthoud: je hebt al een SparkSession spark, een tijdelijke tabel fifa_df_table en een DataFrame fifa_df_germany_age in je werkruimte.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Zet
fifa_df_germany_ageom naar het Pandas DataFramefifa_df_germany_age_pandas. - Genereer een dichtheidsplot van de kolom 'Age' uit het Pandas DataFrame
fifa_df_germany_age_pandas.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Convert fifa_df to fifa_df_germany_age_pandas DataFrame
fifa_df_germany_age_pandas = fifa_df_germany_age.____()
# Plot the 'Age' density of Germany Players
____.plot(kind='density')
plt.show()