BaşlayınÜcretsiz Başlayın

DataFrame'leri Kullanma

Spark’ın çekirdek veri yapısı Dayanıklı Dağıtık Veri Kümesi’dir (Resilient Distributed Dataset – RDD). Bu, Spark’ın veriyi kümedeki birden çok düğüme bölerek sihrini yapmasını sağlayan düşük seviyeli bir nesnedir. Ancak RDD’lerle doğrudan çalışmak zordur, bu yüzden bu derste RDD’lerin üzerine kurulu Spark DataFrame soyutlamasını kullanacaksın.

Spark DataFrame, SQL tablosu gibi davranacak şekilde tasarlanmıştır (sütunlarda değişkenler ve satırlarda gözlemler bulunan bir tablo). Anlaşılmaları daha kolay olmanın yanı sıra, DataFrame’ler RDD’lere kıyasla karmaşık işlemler için daha iyi optimize edilmiştir.

Verinin sütun ve satırlarını değiştirmeye ve birleştirmeye başladığında, aynı sonuca ulaşmanın birçok yolu vardır; ama bazıları diğerlerinden çok daha uzun sürebilir. RDD kullanırken sorguyu doğru şekilde optimize etmek veri bilimcinin sorumluluğundadır; oysa DataFrame uygulamasında bu optimizasyonun büyük bölümü yerleşik olarak gelir!

Spark DataFrame’lerle çalışmaya başlamak için önce SparkContext’inden bir SparkSession nesnesi oluşturmalısın. SparkContext’i kümeye bağlantın, SparkSession’ı ise o bağlantıyla etkileşim kurduğun arayüz olarak düşünebilirsin.

Unutma, bu kursun geri kalanında çalışma alanında spark adlı bir SparkSession hazır olacak!

Aşağıdakilerden hangisi Spark DataFrame’lerin RDD’lere göre bir avantajıdır?

Bu egzersiz

PySpark Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Uygulamalı interaktif egzersiz

İnteraktif egzersizlerimizden biriyle teoriyi pratiğe dökün

Egzersizi başlat