MulaiMulai sekarang secara gratis

Menghapus perantara

Sekarang Anda tahu cara memasukkan data ke Spark melalui pandas, tetapi Anda mungkin bertanya-tanya mengapa harus repot dengan pandas? Bukankah lebih mudah langsung membaca berkas teks ke dalam Spark? Tentu saja!

Untungnya, SparkSession Anda memiliki atribut .read yang menyediakan beberapa metode untuk membaca berbagai sumber data ke dalam Spark DataFrame. Dengan ini Anda dapat membuat DataFrame dari berkas .csv seperti pada DataFrame pandas biasa!

Variabel file_path adalah string yang berisi path ke berkas airports.csv. Berkas ini memuat informasi tentang berbagai bandara di seluruh dunia.

SparkSession bernama spark tersedia di workspace Anda.

Latihan ini adalah bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Petunjuk latihan

  • Gunakan metode .read.csv() untuk membuat Spark DataFrame bernama airports
    • Argumen pertama adalah file_path
    • Teruskan argumen header=True agar Spark mengambil nama kolom dari baris pertama berkas.
  • Cetak DataFrame ini dengan memanggil .show().

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"

# Read in the airports data
airports = ____.____.____(____, ____=____)

# Show the data
____.____()
Edit dan Jalankan Kode