Subsetting dan pembersihan PySpark DataFrame
Setelah inspeksi data, sering kali diperlukan pembersihan data yang terutama meliputi subsetting, mengganti nama kolom, menghapus baris duplikat, dan sebagainya. PySpark DataFrame API menyediakan beberapa operator untuk melakukan hal ini. Pada latihan ini, tugas Anda adalah mengambil subhimpunan kolom 'name', 'sex', dan 'date of birth' dari DataFrame people_df, menghapus baris duplikat dari himpunan data tersebut, serta menghitung jumlah baris sebelum dan sesudah langkah penghapusan duplikat.
Ingat, Anda sudah memiliki SparkSession spark dan DataFrame people_df di ruang kerja Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Pilih kolom 'name', 'sex', dan 'date of birth' dari
people_dfdan buat DataFramepeople_df_sub. - Cetak 10 observasi pertama dalam DataFrame
people_df_sub. - Hapus entri duplikat dari DataFrame
people_df_subdan buat DataFramepeople_df_sub_nodup. - Berapa banyak baris yang ada sebelum dan sesudah duplikat dihapus?
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Select name, sex and date of birth columns
people_df_sub = people_df.____('name', ____, ____)
# Print the first 10 observations from people_df_sub
people_df_sub.____(____)
# Remove duplicate entries from people_df_sub
people_df_sub_nodup = people_df_sub.____()
# Count the number of rows
print("There were {} rows before removing duplicates, and {} rows after removing duplicates".format(people_df_sub.____(), people_df_sub_nodup.____()))