Memuat data sensus
Mari mulai membuat PySpark DataFrame pertama Anda! Berkas adult_reduced.csv berisi pengelompokan orang dewasa berdasarkan berbagai kategori demografis. Data ini diadaptasi dari US Census. Total terdapat 32562 pengelompokan orang dewasa.
Kita perlu memuat berkas CSV dan melihat skema yang dihasilkan.
Kamus data:
| Variable | Description |
|---|---|
| age | Usia individu |
| education_num | Pendidikan berdasarkan gelar |
| marital_status | Status pernikahan |
| occupation | Pekerjaan |
| income | Pendapatan kategorikal |
Latihan ini adalah bagian dari kursus
Pengantar PySpark
Petunjuk latihan
- Buat PySpark DataFrame dari berkas
"adult_reduced.csv"menggunakan metodespark.read.csv(). - Tampilkan DataFrame yang dihasilkan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Read in the CSV
census_adult = ____.____.____(____)
# Show the DataFrame
census_adult.____