BaşlayınÜcretsiz Başlayın

Aradaki aracı kaldırmak

Artık verileri pandas üzerinden Spark'a nasıl aktaracağını biliyorsun, ama muhtemelen "Neden hiç pandas ile uğraşayım?" diye düşünüyorsun. Metin dosyasını doğrudan Spark'a okumak daha kolay olmaz mı? Tabii ki olur!

Neyse ki SparkSession nesnesinin, farklı veri kaynaklarını Spark DataFrame'lerine okumaya yarayan birkaç yöntemi bulunan bir .read özelliği var. Bunları kullanarak tıpkı normal pandas DataFrame'lerinde olduğu gibi bir .csv dosyasından DataFrame oluşturabilirsin!

file_path değişkeni, airports.csv dosyasının yolunu içeren bir string. Bu dosya, dünya genelindeki farklı havaalanları hakkında bilgiler içeriyor.

spark adlı bir SparkSession çalışma alanında hazır.

Bu egzersiz

PySpark Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • .read.csv() yöntemini kullanarak airports adlı bir Spark DataFrame oluştur
    • İlk argüman file_path
    • Spark'ın sütun adlarını dosyanın ilk satırından alması için header=True argümanını geçir.
  • .show() çağırarak bu DataFrame'i yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"

# Read in the airports data
airports = ____.____.____(____, ____=____)

# Show the data
____.____()
Kodu Düzenle ve Çalıştır