Join işlemleri
Bir diğer çok yaygın veri işlemi de join'dir. Join'ler başlı başına bir konudur; bu derste basit join'lere bakacağız. Join'ler hakkında daha fazla öğrenmek istersen, buraya göz atabilirsin.
Join, iki farklı tabloyu ortak paylaştıkları bir sütun boyunca birleştirir. Bu sütuna anahtar (key) denir. Buradaki örnek anahtarlara flights tablosundaki tailnum ve carrier sütunları dahildir.
Örneğin, bir uçuşu yapan uçağın kuyruk numarasından fazlasını bilmek istediğini varsayalım. Bu bilgi flights tablosunda yoktur çünkü aynı uçak iki yıl boyunca birçok farklı uçuş yapar; bu bilgiyi her satıra koymak çokça tekrar yaratır. Bunu önlemek için, her uçak için yalnızca tek bir satırın yer aldığı ve sütunlarında uçağa ait tüm bilgilerin (kuyruk numarası dahil) bulunduğu ikinci bir tablo tutarsın. Bu tabloya planes diyebilirsin.
flights tablosunu bu uçak bilgisi tablosu ile join ettiğinde, planes tablosundaki tüm sütunları flights tablosuna eklemiş olursun. Bu sütunları doldurmak için flights tablosundaki kuyruk numarasına bakar, planes tablosunda eşleşenini bulur ve o satırdaki bilgileri yeni sütunları doldurmak için kullanırsın.
Artık öncekinden çok daha büyük bir tablon olacak, ama her satırda o uçuşu yapan uçağa dair tüm bilgiler bulunacak!
Aşağıdakilerden hangisi doğru değildir?
Bu egzersiz
PySpark Temelleri
kursunun bir parçasıdırUygulamalı interaktif egzersiz
İnteraktif egzersizlerimizden biriyle teoriyi pratiğe dökün
Egzersizi başlat