Mulai sekarangMulai gratis

Memuat data sensus

Mari mulai membuat PySpark DataFrame pertama Anda! Berkas adult_reduced.csv berisi pengelompokan orang dewasa berdasarkan berbagai kategori demografis. Data ini diadaptasi dari US Census. Total terdapat 32562 pengelompokan orang dewasa.

Kita perlu memuat berkas CSV dan melihat skema yang dihasilkan.

Kamus data:

Variable Description
age Usia individu
education_num Pendidikan berdasarkan gelar
marital_status Status pernikahan
occupation Pekerjaan
income Pendapatan kategorikal

Latihan ini merupakan bagian dari kursus

Pengantar PySpark

Lihat Kursus

Instruksi latihan

  • Buat PySpark DataFrame dari berkas "adult_reduced.csv" menggunakan metode spark.read.csv().
  • Tampilkan DataFrame yang dihasilkan.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Read in the CSV
census_adult = ____.____.____(____)

# Show the DataFrame
census_adult.____
Edit dan Jalankan Kode