Sütun düzenleme
Federal Aviation Administration (FAA), bir uçuş planlanan saatinden 15 dakika veya daha fazla gecikmeyle varırsa onu "delayed" olarak kabul eder.
Uçuş verilerini hazırlamanın bir sonraki adımı iki bölümden oluşur:
- mesafe birimlerini dönüştürüp
milesütununukmsütunuyla değiştirmek; ve - bir uçuşun gecikip gecikmediğini belirten Boole türünde bir sütun oluşturmak.
Bu egzersiz
PySpark ile Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
- Bir sayıyı belirli bir ondalık basamağa yuvarlamanı sağlayacak bir fonksiyonu içe aktar.
milesütunundan türetilen yeni birkmsütunu oluştur ve sıfır ondalık basamağa yuvarla. Bir mil 1.60934 km'dir.milesütununu kaldır.- Gecikme 15 dakika veya daha fazlaysa 1, değilse 0 değerini alan bir
labelsütunu oluştur. Mantıksal koşulu dikkatlice düşün.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import the required function
from pyspark.sql.functions import ____
# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
.____('mile')
# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))
# Check first five records
flights_km.show(5)