MulaiMulai sekarang secara gratis

Memuat data sensus

Mari mulai membuat PySpark DataFrame pertama Anda! Berkas adult_reduced.csv berisi pengelompokan orang dewasa berdasarkan berbagai kategori demografis. Data ini diadaptasi dari US Census. Total terdapat 32562 pengelompokan orang dewasa.

Kita perlu memuat berkas CSV dan melihat skema yang dihasilkan.

Kamus data:

Variable Description
age Usia individu
education_num Pendidikan berdasarkan gelar
marital_status Status pernikahan
occupation Pekerjaan
income Pendapatan kategorikal

Latihan ini adalah bagian dari kursus

Pengantar PySpark

Lihat Kursus

Petunjuk latihan

  • Buat PySpark DataFrame dari berkas "adult_reduced.csv" menggunakan metode spark.read.csv().
  • Tampilkan DataFrame yang dihasilkan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Read in the CSV
census_adult = ____.____.____(____)

# Show the DataFrame
census_adult.____
Edit dan Jalankan Kode