Bölüm 3: Veri görselleştirme
Veri görselleştirme, keşifsel veri analizi (EDA) için önemlidir. PySpark DataFrame, sahip olduğu yapı ve şema nedeniyle RDD’lere kıyasla veri görselleştirme için çok daha uygundur.
Bu üçüncü bölümde, önceki egzersizde oluşturduğun DataFrame’den Almanya’daki tüm oyuncuların yaşlarının bir histogramını oluşturacaksın. Bunun için önce PySpark DataFrame’i Pandas DataFrame’e dönüştürecek, ardından matplotlib’in plot() fonksiyonunu kullanarak Almanya’daki tüm oyuncuların yaşlarının bir yoğunluk grafiğini (density plot) çizeceksin.
Unutma, çalışma alanında zaten bir SparkSession spark, bir geçici tablo fifa_df_table ve bir DataFrame fifa_df_germany_age bulunuyor.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
fifa_df_germany_ageDataFrame’ini Pandas DataFrame’e dönüştürerekfifa_df_germany_age_pandasdeğişkenine ata.fifa_df_germany_age_pandasPandas DataFrame’inin 'Age' sütunundan bir yoğunluk grafiği (density plot) oluştur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Convert fifa_df to fifa_df_germany_age_pandas DataFrame
fifa_df_germany_age_pandas = fifa_df_germany_age.____()
# Plot the 'Age' density of Germany Players
____.plot(kind='density')
plt.show()