Bagian 3: Visualisasi data
Visualisasi data penting untuk exploratory data analysis (EDA). DataFrame PySpark lebih cocok untuk visualisasi data dibandingkan RDD karena memiliki struktur dan skema bawaan.
Pada bagian ketiga ini, Anda akan membuat histogram usia semua pemain dari Jerman dari DataFrame yang Anda buat pada latihan sebelumnya. Untuk itu, Anda akan terlebih dahulu mengonversi DataFrame PySpark menjadi DataFrame Pandas dan menggunakan fungsi plot() dari matplotlib untuk membuat density plot usia semua pemain dari Jerman.
Ingat, Anda sudah memiliki SparkSession spark, tabel sementara fifa_df_table, dan DataFrame fifa_df_germany_age yang tersedia di workspace Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Konversikan
fifa_df_germany_agemenjadi DataFrame Pandasfifa_df_germany_age_pandas. - Hasilkan density plot dari kolom 'Age' pada DataFrame Pandas
fifa_df_germany_age_pandas.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Convert fifa_df to fifa_df_germany_age_pandas DataFrame
fifa_df_germany_age_pandas = fifa_df_germany_age.____()
# Plot the 'Age' density of Germany Players
____.plot(kind='density')
plt.show()