MulaiMulai sekarang secara gratis

Penulisan skema

Kita telah memuat Skema dengan beberapa cara. Sekarang, mari kita tetapkan skema secara langsung. Kita akan menggunakan kamus data:

Variable Description
age Usia individu
education_num Pendidikan berdasarkan gelar
marital_status Status pernikahan
occupation Pekerjaan
income Pendapatan kategorikal

Latihan ini adalah bagian dari kursus

Pengantar PySpark

Lihat Kursus

Petunjuk latihan

  • Tentukan skema data, berikan nama kolom (age, education_num, marital_status, occupation, dan income) serta tipe kolom, dan tetapkan koma sebagai argumen sep=.
  • Baca data dari berkas dipisahkan koma bernama adult_reduced_100.csv.
  • Cetak skema untuk DataFrame yang dihasilkan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType

# Fill in the schema with the columns you need from the exercise instructions
schema = StructType([____("____",____()),
                     ____("____",____()),
                     ____("marital_status",StringType()),
                     StructField("____",____()),
                     ____("____",____()),
                    ])

# Read in the CSV, using the schema you defined above
census_adult = spark.read.csv("adult_reduced_100.csv", sep='____', header=False, schema=schema)

# Print out the schema
census_adult.____
Edit dan Jalankan Kode