MulaiMulai sekarang secara gratis

Subsetting dan pembersihan PySpark DataFrame

Setelah inspeksi data, sering kali diperlukan pembersihan data yang terutama meliputi subsetting, mengganti nama kolom, menghapus baris duplikat, dan sebagainya. PySpark DataFrame API menyediakan beberapa operator untuk melakukan hal ini. Pada latihan ini, tugas Anda adalah mengambil subhimpunan kolom 'name', 'sex', dan 'date of birth' dari DataFrame people_df, menghapus baris duplikat dari himpunan data tersebut, serta menghitung jumlah baris sebelum dan sesudah langkah penghapusan duplikat.

Ingat, Anda sudah memiliki SparkSession spark dan DataFrame people_df di ruang kerja Anda.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Pilih kolom 'name', 'sex', dan 'date of birth' dari people_df dan buat DataFrame people_df_sub.
  • Cetak 10 observasi pertama dalam DataFrame people_df_sub.
  • Hapus entri duplikat dari DataFrame people_df_sub dan buat DataFrame people_df_sub_nodup.
  • Berapa banyak baris yang ada sebelum dan sesudah duplikat dihapus?

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Select name, sex and date of birth columns
people_df_sub = people_df.____('name', ____, ____)

# Print the first 10 observations from people_df_sub
people_df_sub.____(____)

# Remove duplicate entries from people_df_sub
people_df_sub_nodup = people_df_sub.____()

# Count the number of rows
print("There were {} rows before removing duplicates, and {} rows after removing duplicates".format(people_df_sub.____(), people_df_sub_nodup.____()))
Edit dan Jalankan Kode