PySpark DataFrame-visualisatie
Grafische weergaven of visualisaties van data zijn essentieel om data te begrijpen en te interpreteren. In deze eenvoudige datavisualisatie-oefening print je eerst de kolomnamen van het names_df DataFrame dat je eerder hebt gemaakt, converteer je vervolgens names_df naar een Pandas DataFrame, en plot je tenslotte de inhoud als een horizontale staafgrafiek met de namen van de mensen op de x-as en hun leeftijd op de y-as.
Onthoud: je hebt al een SparkSession spark en een DataFrame names_df beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Print de namen van de kolommen in het
names_dfDataFrame. - Converteer het
names_dfDataFrame naar het Pandas DataFramedf_pandas. - Gebruik de
plot()-methode van matplotlib om een horizontale staafgrafiek te maken met'Name'op de x-as en'Age'op de y-as.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Check the column names of names_df
print("The column names of names_df are", names_df.____)
# Convert to Pandas DataFrame
df_pandas = names_df.____()
# Create a horizontal bar plot
____.plot(kind='barh', x='____', y='____', colormap='winter_r')
plt.show()