MulaiMulai sekarang secara gratis

Bagian 3: Visualisasi data

Visualisasi data penting untuk exploratory data analysis (EDA). DataFrame PySpark lebih cocok untuk visualisasi data dibandingkan RDD karena memiliki struktur dan skema bawaan.

Pada bagian ketiga ini, Anda akan membuat histogram usia semua pemain dari Jerman dari DataFrame yang Anda buat pada latihan sebelumnya. Untuk itu, Anda akan terlebih dahulu mengonversi DataFrame PySpark menjadi DataFrame Pandas dan menggunakan fungsi plot() dari matplotlib untuk membuat density plot usia semua pemain dari Jerman.

Ingat, Anda sudah memiliki SparkSession spark, tabel sementara fifa_df_table, dan DataFrame fifa_df_germany_age yang tersedia di workspace Anda.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Konversikan fifa_df_germany_age menjadi DataFrame Pandas fifa_df_germany_age_pandas.
  • Hasilkan density plot dari kolom 'Age' pada DataFrame Pandas fifa_df_germany_age_pandas.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Convert fifa_df to fifa_df_germany_age_pandas DataFrame
fifa_df_germany_age_pandas = fifa_df_germany_age.____()

# Plot the 'Age' density of Germany Players
____.plot(kind='density')
plt.show()
Edit dan Jalankan Kode