BaşlayınÜcretsiz Başlayın

Şema yazımı

Artık şemaları birden fazla şekilde yükledik. Şimdi şemayı doğrudan tanımlayalım. Bir veri sözlüğü kullanacağız:

Değişken Açıklama
age Kişinin yaşı
education_num Dereceye göre eğitim
marital_status Medeni durum
occupation Meslek
income Kategorik gelir

Bu egzersiz

PySpark'e Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Veri şemasını belirt: sütun adlarını (age,education_num,marital_status,occupation ve income) ve sütun türlerini ver; sep= argümanı için virgül kullan.
  • Virgülle ayrılmış adult_reduced_100.csv adlı dosyadan veriyi oku.
  • Ortaya çıkan DataFrame için şemayı yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType

# Fill in the schema with the columns you need from the exercise instructions
schema = StructType([____("____",____()),
                     ____("____",____()),
                     ____("marital_status",StringType()),
                     StructField("____",____()),
                     ____("____",____()),
                    ])

# Read in the CSV, using the schema you defined above
census_adult = spark.read.csv("adult_reduced_100.csv", sep='____', header=False, schema=schema)

# Print out the schema
census_adult.____
Kodu Düzenle ve Çalıştır