BaşlayınÜcretsiz başlayın

Aradaki aracı kaldırmak

Artık verileri pandas üzerinden Spark'a nasıl aktaracağını biliyorsun, ama muhtemelen "Neden hiç pandas ile uğraşayım?" diye düşünüyorsun. Metin dosyasını doğrudan Spark'a okumak daha kolay olmaz mı? Tabii ki olur!

Neyse ki SparkSession nesnesinin, farklı veri kaynaklarını Spark DataFrame'lerine okumaya yarayan birkaç yöntemi bulunan bir .read özelliği var. Bunları kullanarak tıpkı normal pandas DataFrame'lerinde olduğu gibi bir .csv dosyasından DataFrame oluşturabilirsin!

file_path değişkeni, airports.csv dosyasının yolunu içeren bir string. Bu dosya, dünya genelindeki farklı havaalanları hakkında bilgiler içeriyor.

spark adlı bir SparkSession çalışma alanında hazır.

Bu egzersiz, kursun bir parçasıdır

PySpark Temelleri

Kursa Göz Atın

Egzersiz talimatları

  • .read.csv() yöntemini kullanarak airports adlı bir Spark DataFrame oluştur
    • İlk argüman file_path
    • Spark'ın sütun adlarını dosyanın ilk satırından alması için header=True argümanını geçir.
  • .show() çağırarak bu DataFrame'i yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"

# Read in the airports data
airports = ____.____.____(____, ____=____)

# Show the data
____.____()
Kodu Düzenle ve Çalıştır