Penulisan skema
Kita telah memuat Skema dengan beberapa cara. Sekarang, mari kita tetapkan skema secara langsung. Kita akan menggunakan kamus data:
| Variable | Description |
|---|---|
| age | Usia individu |
| education_num | Pendidikan berdasarkan gelar |
| marital_status | Status pernikahan |
| occupation | Pekerjaan |
| income | Pendapatan kategorikal |
Latihan ini adalah bagian dari kursus
Pengantar PySpark
Petunjuk latihan
- Tentukan skema data, berikan nama kolom (
age,education_num,marital_status,occupation, danincome) serta tipe kolom, dan tetapkan koma sebagai argumensep=. - Baca data dari berkas dipisahkan koma bernama
adult_reduced_100.csv. - Cetak skema untuk DataFrame yang dihasilkan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
from pyspark.sql.types import StructType, StructField, IntegerType, StringType
# Fill in the schema with the columns you need from the exercise instructions
schema = StructType([____("____",____()),
____("____",____()),
____("marital_status",StringType()),
StructField("____",____()),
____("____",____()),
])
# Read in the CSV, using the schema you defined above
census_adult = spark.read.csv("adult_reduced_100.csv", sep='____', header=False, schema=schema)
# Print out the schema
census_adult.____