MulaiMulai sekarang secara gratis

Menyaring DataFrame Anda

Pada latihan sebelumnya, Anda telah melakukan subset data menggunakan operator select() yang terutama digunakan untuk mengambil subset DataFrame berdasarkan kolom. Bagaimana jika Anda ingin mengambil subset DataFrame berdasarkan suatu kondisi (misalnya, memilih semua baris dengan jenis kelamin Female). Pada latihan ini, Anda akan memfilter baris pada DataFrame people_df di mana 'sex' adalah female dan male, lalu membuat dua himpunan data yang berbeda. Terakhir, Anda akan menghitung jumlah baris pada masing-masing himpunan data tersebut.

Ingat, Anda sudah memiliki SparkSession spark dan DataFrame people_df di lingkungan kerja Anda.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Saring DataFrame people_df untuk memilih semua baris dengan sex bernilai female ke dalam DataFrame people_df_female.
  • Saring DataFrame people_df untuk memilih semua baris dengan sex bernilai male ke dalam DataFrame people_df_male.
  • Hitung jumlah baris pada DataFrame people_df_female dan people_df_male.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Filter people_df to select females 
people_df_female = people_df.____(people_df.____ == "female")

# Filter people_df to select males
people_df_male = people_df.____(____ == "____")

# Count the number of rows 
print("There are {} rows in the people_df_female DataFrame and {} rows in the people_df_male DataFrame".format(people_df_female.____(), people_df_male.____()))
Edit dan Jalankan Kode