Visualisasi PySpark DataFrame
Representasi grafis atau visualisasi data sangat penting untuk memahami sekaligus menafsirkan data. Dalam latihan visualisasi data sederhana ini, Anda akan terlebih dahulu mencetak nama-nama kolom dari DataFrame names_df yang telah Anda buat sebelumnya, kemudian mengonversi names_df menjadi DataFrame Pandas, dan akhirnya memplot isinya sebagai bagan batang horizontal dengan nama orang pada sumbu x dan usia mereka pada sumbu y.
Ingat, Anda sudah memiliki SparkSession spark dan DataFrame names_df yang tersedia di ruang kerja Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Cetak nama-nama kolom dalam DataFrame
names_df. - Konversi DataFrame
names_dfmenjadi DataFrame Pandasdf_pandas. - Gunakan metode
plot()dari matplotlib untuk membuat bagan batang horizontal dengan'Name'pada sumbu x dan'Age'pada sumbu y.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Check the column names of names_df
print("The column names of names_df are", names_df.____)
# Convert to Pandas DataFrame
df_pandas = names_df.____()
# Create a horizontal bar plot
____.plot(kind='barh', x='____', y='____', colormap='winter_r')
plt.show()