Menghapus kolom dan baris
Sebelumnya Anda telah memuat data penerbangan maskapai dari berkas CSV. Anda akan mengembangkan model yang memprediksi apakah suatu penerbangan akan mengalami keterlambatan atau tidak.
Dalam latihan ini, Anda perlu merapikan data dengan cara:
- menghapus satu kolom yang tidak informatif dan
- menghapus baris yang tidak memiliki informasi tentang apakah penerbangan terlambat atau tidak.
Data tersedia sebagai flights.
Catatan: Anda mungkin perlu meninjau kembali slide dari pelajaran pada panel Slides di sebelah IPython Shell.
Latihan ini adalah bagian dari kursus
Machine Learning dengan PySpark
Petunjuk latihan
- Hapus kolom
flight. - Cari tahu berapa banyak rekaman yang memiliki nilai hilang pada kolom
delay. - Hapus rekaman dengan nilai hilang pada kolom
delay. - Hapus rekaman dengan nilai hilang pada kolom mana pun dan dapatkan jumlah baris yang tersisa.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Remove the 'flight' column
flights_drop_column = flights.____(____)
# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()
# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)
# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())