DataFrame'ini filtreleme
Önceki egzersizde, DataFrame'i sütun bazında alt kümeye ayırmak için ağırlıklı olarak kullanılan select() operatörünü kullanmıştın. Peki, bir koşula göre (örneğin, cinsiyeti Female olan tüm satırları seçmek) alt küme oluşturmak istersen ne yaparsın? Bu egzersizde, people_df DataFrame'inde 'sex' değeri female ve male olan satırları filtreleyip iki farklı veri kümesi oluşturacaksın. Son olarak, bu veri kümelerinin her birindeki satır sayısını sayacaksın.
Unutma, çalışma alanında zaten bir SparkSession spark ve bir DataFrame people_df bulunuyor.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
people_dfDataFrame'ini filtreleyerek cinsiyeti female olan tüm satırları seç vepeople_df_femaleDataFrame'ini oluştur.people_dfDataFrame'ini filtreleyerek cinsiyeti male olan tüm satırları seç vepeople_df_maleDataFrame'ini oluştur.people_df_femalevepeople_df_maleDataFrame'lerindeki satır sayılarını say.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Filter people_df to select females
people_df_female = people_df.____(people_df.____ == "female")
# Filter people_df to select males
people_df_male = people_df.____(____ == "____")
# Count the number of rows
print("There are {} rows in the people_df_female DataFrame and {} rows in the people_df_male DataFrame".format(people_df_female.____(), people_df_male.____()))