DataFrame'ini filtreleme
Önceki egzersizde, DataFrame'i sütun bazında alt kümeye ayırmak için ağırlıklı olarak kullanılan select() operatörünü kullanmıştın. Peki, bir koşula göre (örneğin, cinsiyeti Female olan tüm satırları seçmek) alt küme oluşturmak istersen ne yaparsın? Bu egzersizde, people_df DataFrame'inde 'sex' değeri female ve male olan satırları filtreleyip iki farklı veri kümesi oluşturacaksın. Son olarak, bu veri kümelerinin her birindeki satır sayısını sayacaksın.
Unutma, çalışma alanında zaten bir SparkSession spark ve bir DataFrame people_df bulunuyor.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Big Data Temelleri
Egzersiz talimatları
people_dfDataFrame'ini filtreleyerek cinsiyeti female olan tüm satırları seç vepeople_df_femaleDataFrame'ini oluştur.people_dfDataFrame'ini filtreleyerek cinsiyeti male olan tüm satırları seç vepeople_df_maleDataFrame'ini oluştur.people_df_femalevepeople_df_maleDataFrame'lerindeki satır sayılarını say.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Filter people_df to select females
people_df_female = people_df.____(people_df.____ == "female")
# Filter people_df to select males
people_df_male = people_df.____(____ == "____")
# Count the number of rows
print("There are {} rows in the people_df_female DataFrame and {} rows in the people_df_male DataFrame".format(people_df_female.____(), people_df_male.____()))