Uçuşları varış havaalanlarıyla birleştirme
Küresel bir seyahat şirketinde veri mühendisi olarak işe alındın. İlk görevin, uçuş verilerini analiz ederek şirketin operasyonlarını iyileştirmesine yardımcı olmak. Çalışma alanında iki veri kümesi var: biri uçuşlarla ilgili ayrıntıları içeriyor (flights), diğeri ise varış havaalanları hakkında bilgi içeriyor (airports). İkisi de çalışma alanında hazır.
Hedefin ne? Her uçuşu varış havaalanıyla ilişkilendiren güçlü bir veri kümesi oluşturmak için bu veri kümelerini birleştirmek.
Bu egzersiz, kursun bir parçasıdır
PySpark'e Giriş
Egzersiz talimatları
airportsDataFrame'ini incele.airportsileflightstablosunu hangi anahtar sütunda birleştirebileceğini not et.flightsileairportsDataFrame'ini"dest"sütununda birleştir. Sonucuflights_with_airportsolarak kaydet.flights_with_airports'ı tekrar incele. Eklenen yeni bilgilere dikkat et.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Examine the data
airports.____()
# .withColumnRenamed() renames the "faa" column to "dest"
airports = airports.withColumnRenamed("faa", "dest")
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
flights_with_airports.____