Uçuşları varış havaalanlarıyla birleştirme
Küresel bir seyahat şirketinde veri mühendisi olarak işe alındın. İlk görevin, uçuş verilerini analiz ederek şirketin operasyonlarını iyileştirmesine yardımcı olmak. Çalışma alanında iki veri kümesi var: biri uçuşlarla ilgili ayrıntıları içeriyor (flights), diğeri ise varış havaalanları hakkında bilgi içeriyor (airports). İkisi de çalışma alanında hazır.
Hedefin ne? Her uçuşu varış havaalanıyla ilişkilendiren güçlü bir veri kümesi oluşturmak için bu veri kümelerini birleştirmek.
Bu egzersiz
PySpark'e Giriş
kursunun bir parçasıdırEgzersiz talimatları
airportsDataFrame'ini incele.airportsileflightstablosunu hangi anahtar sütunda birleştirebileceğini not et.flightsileairportsDataFrame'ini"dest"sütununda birleştir. Sonucuflights_with_airportsolarak kaydet.flights_with_airports'ı tekrar incele. Eklenen yeni bilgilere dikkat et.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Examine the data
airports.____()
# .withColumnRenamed() renames the "faa" column to "dest"
airports = airports.withColumnRenamed("faa", "dest")
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
flights_with_airports.____