Memetakan ulang kategori
Untuk lebih memahami responden survei dari airlines, Anda ingin mengetahui apakah ada hubungan antara respons tertentu dengan hari dalam seminggu dan waktu tunggu di gerbang.
Objek DataFrame airlines berisi kolom day dan wait_min, yang masing-masing bertipe kategorikal dan numerik. Kolom day memuat hari pasti saat penerbangan berlangsung, dan wait_min memuat jumlah menit penumpang menunggu di gerbang. Untuk memudahkan analisis, Anda ingin membuat dua variabel kategorikal baru:
wait_type:'short'untuk 0–60 menit,'medium'untuk 60–180, danlonguntuk 180+day_week:'weekday'jika hari termasuk hari kerja,'weekend'jika hari termasuk akhir pekan.
Pustaka pandas dan numpy telah diimpor sebagai pd dan np. Mari kita buat beberapa data kategorikal baru!
Latihan ini adalah bagian dari kursus
Membersihkan Data di Python
Petunjuk latihan
- Buat rentang dan label untuk kolom
wait_typeseperti disebutkan dalam deskripsi. - Buat kolom
wait_typedariwait_mindengan menggunakanpd.cut(), sambil memasukkanlabel_rangesdanlabel_namespada argumen yang benar. - Buat dictionary
mappingyang memetakan hari kerja ke'weekday'dan hari akhir pekan ke'weekend'. - Buat kolom
day_weekdengan menggunakan.replace().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create ranges for categories
label_ranges = [0, 60, ____, np.inf]
label_names = ['short', ____, ____]
# Create wait_type column
airlines['wait_type'] = pd.____(____, bins = ____,
labels = ____)
# Create mappings and replace
mappings = {'Monday':'weekday', 'Tuesday':'____', 'Wednesday': '____',
'Thursday': '____', '____': '____',
'Saturday': 'weekend', '____': '____'}
airlines['day_week'] = airlines['day'].____(mappings)