Manipulasi kolom
Federal Aviation Administration (FAA) menganggap suatu penerbangan "terlambat" jika tiba 15 menit atau lebih setelah waktu yang dijadwalkan.
Langkah berikutnya dalam menyiapkan data penerbangan terdiri dari dua bagian:
- mengonversi satuan jarak dengan mengganti kolom
milemenjadi kolomkm; dan - membuat kolom Boolean yang menunjukkan apakah suatu penerbangan terlambat atau tidak.
Latihan ini adalah bagian dari kursus
Machine Learning dengan PySpark
Petunjuk latihan
- Impor sebuah fungsi yang memungkinkan Anda membulatkan angka ke sejumlah tempat desimal tertentu.
- Turunkan kolom
kmbaru dari kolommile, dibulatkan ke nol tempat desimal. Satu mile sama dengan 1,60934 km. - Hapus kolom
mile. - Buat kolom
labeldengan nilai 1 yang menunjukkan keterlambatan 15 menit atau lebih dan 0 jika tidak. Pertimbangkan dengan saksama kondisi logikanya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the required function
from pyspark.sql.functions import ____
# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
.____('mile')
# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))
# Check first five records
flights_km.show(5)