IniziaInizia gratis

Visualizzazione di DataFrame PySpark

Le rappresentazioni grafiche o visualizzazioni dei dati sono fondamentali per comprendere e interpretare i dati. In questo semplice esercizio di visualizzazione, prima stamperai i nomi delle colonne del DataFrame names_df che hai creato in precedenza, poi convertirai names_df in un DataFrame Pandas e infine traccerai il contenuto come un grafico a barre orizzontali con i nomi delle persone sull'asse x e la loro età sull'asse y.

Ricorda, hai già una SparkSession spark e un DataFrame names_df disponibili nel tuo workspace.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Stampa i nomi delle colonne nel DataFrame names_df.
  • Converte il DataFrame names_df in un DataFrame Pandas df_pandas.
  • Usa il metodo plot() di matplotlib per creare un grafico a barre orizzontali con 'Name' sull'asse x e 'Age' sull'asse y.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Check the column names of names_df
print("The column names of names_df are", names_df.____)

# Convert to Pandas DataFrame  
df_pandas = names_df.____()

# Create a horizontal bar plot
____.plot(kind='barh', x='____', y='____', colormap='winter_r')
plt.show()
Modifica ed esegui il codice