Menyaring DataFrame Anda
Pada latihan sebelumnya, Anda telah melakukan subset data menggunakan operator select() yang terutama digunakan untuk mengambil subset DataFrame berdasarkan kolom. Bagaimana jika Anda ingin mengambil subset DataFrame berdasarkan suatu kondisi (misalnya, memilih semua baris dengan jenis kelamin Female). Pada latihan ini, Anda akan memfilter baris pada DataFrame people_df di mana 'sex' adalah female dan male, lalu membuat dua himpunan data yang berbeda. Terakhir, Anda akan menghitung jumlah baris pada masing-masing himpunan data tersebut.
Ingat, Anda sudah memiliki SparkSession spark dan DataFrame people_df di lingkungan kerja Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Saring DataFrame
people_dfuntuk memilih semua baris dengan sex bernilai female ke dalam DataFramepeople_df_female. - Saring DataFrame
people_dfuntuk memilih semua baris dengan sex bernilai male ke dalam DataFramepeople_df_male. - Hitung jumlah baris pada DataFrame
people_df_femaledanpeople_df_male.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Filter people_df to select females
people_df_female = people_df.____(people_df.____ == "female")
# Filter people_df to select males
people_df_male = people_df.____(____ == "____")
# Count the number of rows
print("There are {} rows in the people_df_female DataFrame and {} rows in the people_df_male DataFrame".format(people_df_female.____(), people_df_male.____()))