BaşlayınÜcretsiz Başlayın

Bölüm 3: Veri görselleştirme

Veri görselleştirme, keşifsel veri analizi (EDA) için önemlidir. PySpark DataFrame, sahip olduğu yapı ve şema nedeniyle RDD’lere kıyasla veri görselleştirme için çok daha uygundur.

Bu üçüncü bölümde, önceki egzersizde oluşturduğun DataFrame’den Almanya’daki tüm oyuncuların yaşlarının bir histogramını oluşturacaksın. Bunun için önce PySpark DataFrame’i Pandas DataFrame’e dönüştürecek, ardından matplotlib’in plot() fonksiyonunu kullanarak Almanya’daki tüm oyuncuların yaşlarının bir yoğunluk grafiğini (density plot) çizeceksin.

Unutma, çalışma alanında zaten bir SparkSession spark, bir geçici tablo fifa_df_table ve bir DataFrame fifa_df_germany_age bulunuyor.

Bu egzersiz

PySpark ile Big Data Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • fifa_df_germany_age DataFrame’ini Pandas DataFrame’e dönüştürerek fifa_df_germany_age_pandas değişkenine ata.
  • fifa_df_germany_age_pandas Pandas DataFrame’inin 'Age' sütunundan bir yoğunluk grafiği (density plot) oluştur.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Convert fifa_df to fifa_df_germany_age_pandas DataFrame
fifa_df_germany_age_pandas = fifa_df_germany_age.____()

# Plot the 'Age' density of Germany Players
____.plot(kind='density')
plt.show()
Kodu Düzenle ve Çalıştır