MulaiMulai sekarang secara gratis

Manipulasi kolom

Federal Aviation Administration (FAA) menganggap suatu penerbangan "terlambat" jika tiba 15 menit atau lebih setelah waktu yang dijadwalkan.

Langkah berikutnya dalam menyiapkan data penerbangan terdiri dari dua bagian:

  1. mengonversi satuan jarak dengan mengganti kolom mile menjadi kolom km; dan
  2. membuat kolom Boolean yang menunjukkan apakah suatu penerbangan terlambat atau tidak.

Latihan ini adalah bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Impor sebuah fungsi yang memungkinkan Anda membulatkan angka ke sejumlah tempat desimal tertentu.
  • Turunkan kolom km baru dari kolom mile, dibulatkan ke nol tempat desimal. Satu mile sama dengan 1,60934 km.
  • Hapus kolom mile.
  • Buat kolom label dengan nilai 1 yang menunjukkan keterlambatan 15 menit atau lebih dan 0 jika tidak. Pertimbangkan dengan saksama kondisi logikanya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the required function
from pyspark.sql.functions import ____

# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
                    .____('mile')

# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))

# Check first five records
flights_km.show(5)
Edit dan Jalankan Kode