Bölüm 3: Veri görselleştirme
Veri görselleştirme, keşifsel veri analizi (EDA) için önemlidir. PySpark DataFrame, sahip olduğu yapı ve şema nedeniyle RDD’lere kıyasla veri görselleştirme için çok daha uygundur.
Bu üçüncü bölümde, önceki egzersizde oluşturduğun DataFrame’den Almanya’daki tüm oyuncuların yaşlarının bir histogramını oluşturacaksın. Bunun için önce PySpark DataFrame’i Pandas DataFrame’e dönüştürecek, ardından matplotlib’in plot() fonksiyonunu kullanarak Almanya’daki tüm oyuncuların yaşlarının bir yoğunluk grafiğini (density plot) çizeceksin.
Unutma, çalışma alanında zaten bir SparkSession spark, bir geçici tablo fifa_df_table ve bir DataFrame fifa_df_germany_age bulunuyor.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Big Data Temelleri
Egzersiz talimatları
fifa_df_germany_ageDataFrame’ini Pandas DataFrame’e dönüştürerekfifa_df_germany_age_pandasdeğişkenine ata.fifa_df_germany_age_pandasPandas DataFrame’inin 'Age' sütunundan bir yoğunluk grafiği (density plot) oluştur.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Convert fifa_df to fifa_df_germany_age_pandas DataFrame
fifa_df_germany_age_pandas = fifa_df_germany_age.____()
# Plot the 'Age' density of Germany Players
____.plot(kind='density')
plt.show()