MulaiMulai sekarang secara gratis

Kueri SQL untuk memfilter Tabel

Pada latihan sebelumnya, Anda telah menjalankan kueri SQL sederhana pada sebuah DataFrame. Ada kueri yang lebih canggih yang dapat Anda susun untuk memperoleh hasil yang diinginkan dan menggunakannya untuk analisis lanjutan seperti visualisasi data dan Machine Learning. Pada latihan ini, kita akan menggunakan tabel sementara people yang telah Anda buat sebelumnya, memfilter baris dengan nilai "sex" male dan female, lalu membuat dua DataFrame.

Harap diperhatikan bahwa "solution" bersifat peka huruf besar/kecil untuk perintah SQL (misalnya, hanya menerima FROM dan bukan from). "Solution" hanya menerima "==" dan bukan "=".

Ingat, Anda sudah memiliki SparkSession spark dan tabel sementara people di workspace Anda.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Filter tabel people untuk memilih semua baris dengan sex bernilai female ke dalam DataFrame people_female_df.
  • Filter tabel people untuk memilih semua baris dengan sex bernilai male ke dalam DataFrame people_male_df.
  • Hitung jumlah baris pada kedua DataFrame people_female dan people_male.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Filter the people table to select female sex 
people_female_df = spark.____('SELECT * FROM ____ WHERE sex=="____"')

# Filter the people table DataFrame to select male sex
people_male_df = spark.____('SELECT * ____ people ____ ____=="____"')

# Count the number of rows in both people_df_female and people_male_df DataFrames
print("There are {} rows in the people_female_df and {} rows in the people_male_df DataFrames".format(people_female_df.____(), people_male_df.____()))
Edit dan Jalankan Kode