Visualizzazione di DataFrame PySpark
Le rappresentazioni grafiche o visualizzazioni dei dati sono fondamentali per comprendere e interpretare i dati. In questo semplice esercizio di visualizzazione, prima stamperai i nomi delle colonne del DataFrame names_df che hai creato in precedenza, poi convertirai names_df in un DataFrame Pandas e infine traccerai il contenuto come un grafico a barre orizzontali con i nomi delle persone sull'asse x e la loro età sull'asse y.
Ricorda, hai già una SparkSession spark e un DataFrame names_df disponibili nel tuo workspace.
Questo esercizio fa parte del corso
Fondamenti di Big Data con PySpark
Istruzioni dell'esercizio
- Stampa i nomi delle colonne nel DataFrame
names_df. - Converte il DataFrame
names_dfin un DataFrame Pandasdf_pandas. - Usa il metodo
plot()di matplotlib per creare un grafico a barre orizzontali con'Name'sull'asse x e'Age'sull'asse y.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Check the column names of names_df
print("The column names of names_df are", names_df.____)
# Convert to Pandas DataFrame
df_pandas = names_df.____()
# Create a horizontal bar plot
____.plot(kind='barh', x='____', y='____', colormap='winter_r')
plt.show()