MulaiMulai sekarang secara gratis

Memuat data penerbangan

Dalam latihan ini Anda akan memuat beberapa data penerbangan maskapai dari berkas CSV. Agar latihan berjalan cepat, data ini telah dipangkas menjadi hanya 50.000 rekaman. Anda dapat memperoleh himpunan data yang lebih besar dalam format yang sama di sini.

Catatan tentang format CSV:

  • kolom dipisahkan oleh koma (ini adalah pemisah bawaan), dan
  • data yang hilang ditandai dengan string 'NA'.

Kamus data:

  • mon — bulan (bilangan bulat antara 1 dan 12)
  • dom — tanggal dalam bulan (bilangan bulat antara 1 dan 31)
  • dow — hari dalam minggu (bilangan bulat; 1 = Senin dan 7 = Minggu)
  • carrier — maskapai (kode IATA)
  • flight — nomor penerbangan
  • org — bandara asal (kode IATA)
  • mile — jarak (mil)
  • depart — waktu keberangkatan (jam desimal)
  • duration — durasi yang diharapkan (menit)
  • delay — keterlambatan (menit)

pyspark telah diimpor untuk Anda dan sesi telah diinisialisasi.

Catatan: Data telah di-down-sample secara agresif.

Latihan ini adalah bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Baca data dari berkas CSV bernama flights.csv. Tetapkan tipe data kolom secara otomatis. Tangani data yang hilang.
  • Ada berapa banyak rekaman dalam data?
  • Lihat lima rekaman pertama.
  • Tipe data apa yang ditetapkan pada kolom? Apakah terlihat sudah benar?

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)
Edit dan Jalankan Kode