Bölüm 3: Veri görselleştirme

Veri görselleştirme, keşifsel veri analizi (EDA) için önemlidir. PySpark DataFrame, sahip olduğu yapı ve şema nedeniyle RDD’lere kıyasla veri görselleştirme için çok daha uygundur.

Bu üçüncü bölümde, önceki egzersizde oluşturduğun DataFrame’den Almanya’daki tüm oyuncuların yaşlarının bir histogramını oluşturacaksın. Bunun için önce PySpark DataFrame’i Pandas DataFrame’e dönüştürecek, ardından matplotlib’in plot() fonksiyonunu kullanarak Almanya’daki tüm oyuncuların yaşlarının bir yoğunluk grafiğini (density plot) çizeceksin.

Unutma, çalışma alanında zaten bir SparkSession spark, bir geçici tablo fifa_df_table ve bir DataFrame fifa_df_germany_age bulunuyor.

Bu egzersiz, kursun bir parçasıdır

PySpark ile Big Data Temelleri

Kursa Göz Atın

Egzersiz talimatları

fifa_df_germany_age DataFrame’ini Pandas DataFrame’e dönüştürerek fifa_df_germany_age_pandas değişkenine ata.
fifa_df_germany_age_pandas Pandas DataFrame’inin 'Age' sütunundan bir yoğunluk grafiği (density plot) oluştur.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Convert fifa_df to fifa_df_germany_age_pandas DataFrame
fifa_df_germany_age_pandas = fifa_df_germany_age.____()

# Plot the 'Age' density of Germany Players
____.plot(kind='density')
plt.show()

Kodu Düzenle ve Çalıştır