Aan de slagGa gratis aan de slag

PySpark DataFrame-visualisatie

Grafische weergaven of visualisaties van data zijn essentieel om data te begrijpen en te interpreteren. In deze eenvoudige datavisualisatie-oefening print je eerst de kolomnamen van het names_df DataFrame dat je eerder hebt gemaakt, converteer je vervolgens names_df naar een Pandas DataFrame, en plot je tenslotte de inhoud als een horizontale staafgrafiek met de namen van de mensen op de x-as en hun leeftijd op de y-as.

Onthoud: je hebt al een SparkSession spark en een DataFrame names_df beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Cursus bekijken

Oefeninstructies

  • Print de namen van de kolommen in het names_df DataFrame.
  • Converteer het names_df DataFrame naar het Pandas DataFrame df_pandas.
  • Gebruik de plot()-methode van matplotlib om een horizontale staafgrafiek te maken met 'Name' op de x-as en 'Age' op de y-as.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Check the column names of names_df
print("The column names of names_df are", names_df.____)

# Convert to Pandas DataFrame  
df_pandas = names_df.____()

# Create a horizontal bar plot
____.plot(kind='barh', x='____', y='____', colormap='winter_r')
plt.show()
Code bewerken en uitvoeren