Deel 3: Gegevens visualiseren

Datavisualisatie is belangrijk voor exploratieve data-analyse (EDA). Een PySpark DataFrame is hiervoor geschikter dan RDD’s vanwege de ingebouwde structuur en het schema.

In dit derde deel maak je een histogram van de leeftijden van alle spelers uit Duitsland, uit het DataFrame dat je in de vorige oefening hebt gemaakt. Hiervoor zet je eerst het PySpark DataFrame om naar een Pandas DataFrame en gebruik je vervolgens de plot()-functie van matplotlib om een dichtheidsplot te maken van de leeftijden van alle spelers uit Duitsland.

Onthoud: je hebt al een SparkSession spark, een tijdelijke tabel fifa_df_table en een DataFrame fifa_df_germany_age in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Bekijk cursus

Oefeninstructies

Zet fifa_df_germany_age om naar het Pandas DataFrame fifa_df_germany_age_pandas.
Genereer een dichtheidsplot van de kolom 'Age' uit het Pandas DataFrame fifa_df_germany_age_pandas.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Convert fifa_df to fifa_df_germany_age_pandas DataFrame
fifa_df_germany_age_pandas = fifa_df_germany_age.____()

# Plot the 'Age' density of Germany Players
____.plot(kind='density')
plt.show()

Code bewerken en uitvoeren