Tabloyu filtrelemek için SQL sorguları
Önceki egzersizde, bir DataFrame üzerinde basit bir SQL sorgusu çalıştırdın. Elde etmek istediğin sonucu almak ve bunu veri görselleştirme ve Machine Learning gibi sonraki analizlerde kullanmak için daha gelişmiş sorgular yazabilirsin. Bu egzersizde, daha önce oluşturduğun geçici people tablosunu kullanacağız; "sex" alanı erkek ve kadın olan satırları filtreleyip iki DataFrame oluşturacağız.
Lütfen dikkat: SQL komutlarında "çözüm" büyük/küçük harfe duyarlıdır (örneğin, sadece FROM kabul edilir, from kabul edilmez). "Çözüm" =" yerine sadece == kabul eder.
Unutma, çalışma alanında zaten bir SparkSession spark ve bir geçici people tablon hazır.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
peopletablosunu filtreleyerek cinsiyeti kadın olan tüm satırları seç vepeople_female_dfDataFrame'ine ata.peopletablosunu filtreleyerek cinsiyeti erkek olan tüm satırları seç vepeople_male_dfDataFrame'ine ata.- Hem
people_femalehem depeople_maleDataFrame'lerindeki satır sayısını say.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Filter the people table to select female sex
people_female_df = spark.____('SELECT * FROM ____ WHERE sex=="____"')
# Filter the people table DataFrame to select male sex
people_male_df = spark.____('SELECT * ____ people ____ ____=="____"')
# Count the number of rows in both people_df_female and people_male_df DataFrames
print("There are {} rows in the people_female_df and {} rows in the people_male_df DataFrames".format(people_female_df.____(), people_male_df.____()))