Aradaki aracı kaldırmak
Artık verileri pandas üzerinden Spark'a nasıl aktaracağını biliyorsun, ama muhtemelen "Neden hiç pandas ile uğraşayım?" diye düşünüyorsun. Metin dosyasını doğrudan Spark'a okumak daha kolay olmaz mı? Tabii ki olur!
Neyse ki SparkSession nesnesinin, farklı veri kaynaklarını Spark DataFrame'lerine okumaya yarayan birkaç yöntemi bulunan bir .read özelliği var. Bunları kullanarak tıpkı normal pandas DataFrame'lerinde olduğu gibi bir .csv dosyasından DataFrame oluşturabilirsin!
file_path değişkeni, airports.csv dosyasının yolunu içeren bir string. Bu dosya, dünya genelindeki farklı havaalanları hakkında bilgiler içeriyor.
spark adlı bir SparkSession çalışma alanında hazır.
Bu egzersiz, kursun bir parçasıdır
PySpark Temelleri
Egzersiz talimatları
.read.csv()yöntemini kullanarakairportsadlı bir Spark DataFrame oluştur- İlk argüman
file_path - Spark'ın sütun adlarını dosyanın ilk satırından alması için
header=Trueargümanını geçir.
- İlk argüman
.show()çağırarak bu DataFrame'i yazdır.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"
# Read in the airports data
airports = ____.____.____(____, ____=____)
# Show the data
____.____()