Aradaki aracı kaldırmak
Artık verileri pandas üzerinden Spark'a nasıl aktaracağını biliyorsun, ama muhtemelen "Neden hiç pandas ile uğraşayım?" diye düşünüyorsun. Metin dosyasını doğrudan Spark'a okumak daha kolay olmaz mı? Tabii ki olur!
Neyse ki SparkSession nesnesinin, farklı veri kaynaklarını Spark DataFrame'lerine okumaya yarayan birkaç yöntemi bulunan bir .read özelliği var. Bunları kullanarak tıpkı normal pandas DataFrame'lerinde olduğu gibi bir .csv dosyasından DataFrame oluşturabilirsin!
file_path değişkeni, airports.csv dosyasının yolunu içeren bir string. Bu dosya, dünya genelindeki farklı havaalanları hakkında bilgiler içeriyor.
spark adlı bir SparkSession çalışma alanında hazır.
Bu egzersiz
PySpark Temelleri
kursunun bir parçasıdırEgzersiz talimatları
.read.csv()yöntemini kullanarakairportsadlı bir Spark DataFrame oluştur- İlk argüman
file_path - Spark'ın sütun adlarını dosyanın ilk satırından alması için
header=Trueargümanını geçir.
- İlk argüman
.show()çağırarak bu DataFrame'i yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"
# Read in the airports data
airports = ____.____.____(____, ____=____)
# Show the data
____.____()