BaşlayınÜcretsiz Başlayın

Tabloyu filtrelemek için SQL sorguları

Önceki egzersizde, bir DataFrame üzerinde basit bir SQL sorgusu çalıştırdın. Elde etmek istediğin sonucu almak ve bunu veri görselleştirme ve Machine Learning gibi sonraki analizlerde kullanmak için daha gelişmiş sorgular yazabilirsin. Bu egzersizde, daha önce oluşturduğun geçici people tablosunu kullanacağız; "sex" alanı erkek ve kadın olan satırları filtreleyip iki DataFrame oluşturacağız.

Lütfen dikkat: SQL komutlarında "çözüm" büyük/küçük harfe duyarlıdır (örneğin, sadece FROM kabul edilir, from kabul edilmez). "Çözüm" =" yerine sadece == kabul eder.

Unutma, çalışma alanında zaten bir SparkSession spark ve bir geçici people tablon hazır.

Bu egzersiz

PySpark ile Big Data Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • people tablosunu filtreleyerek cinsiyeti kadın olan tüm satırları seç ve people_female_df DataFrame'ine ata.
  • people tablosunu filtreleyerek cinsiyeti erkek olan tüm satırları seç ve people_male_df DataFrame'ine ata.
  • Hem people_female hem de people_male DataFrame'lerindeki satır sayısını say.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Filter the people table to select female sex 
people_female_df = spark.____('SELECT * FROM ____ WHERE sex=="____"')

# Filter the people table DataFrame to select male sex
people_male_df = spark.____('SELECT * ____ people ____ ____=="____"')

# Count the number of rows in both people_df_female and people_male_df DataFrames
print("There are {} rows in the people_female_df and {} rows in the people_male_df DataFrames".format(people_female_df.____(), people_male_df.____()))
Kodu Düzenle ve Çalıştır