Sütun düzenleme
Federal Aviation Administration (FAA), bir uçuş planlanan saatinden 15 dakika veya daha fazla gecikmeyle varırsa onu "delayed" olarak kabul eder.
Uçuş verilerini hazırlamanın bir sonraki adımı iki bölümden oluşur:
- mesafe birimlerini dönüştürüp
milesütununukmsütunuyla değiştirmek; ve - bir uçuşun gecikip gecikmediğini belirten Boole türünde bir sütun oluşturmak.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Machine Learning
Egzersiz talimatları
- Bir sayıyı belirli bir ondalık basamağa yuvarlamanı sağlayacak bir fonksiyonu içe aktar.
milesütunundan türetilen yeni birkmsütunu oluştur ve sıfır ondalık basamağa yuvarla. Bir mil 1.60934 km'dir.milesütununu kaldır.- Gecikme 15 dakika veya daha fazlaysa 1, değilse 0 değerini alan bir
labelsütunu oluştur. Mantıksal koşulu dikkatlice düşün.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Import the required function
from pyspark.sql.functions import ____
# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
.____('mile')
# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))
# Check first five records
flights_km.show(5)