Şema yazımı
Artık şemaları birden fazla şekilde yükledik. Şimdi şemayı doğrudan tanımlayalım. Bir veri sözlüğü kullanacağız:
| Değişken | Açıklama |
|---|---|
| age | Kişinin yaşı |
| education_num | Dereceye göre eğitim |
| marital_status | Medeni durum |
| occupation | Meslek |
| income | Kategorik gelir |
Bu egzersiz
PySpark'e Giriş
kursunun bir parçasıdırEgzersiz talimatları
- Veri şemasını belirt: sütun adlarını (
age,education_num,marital_status,occupationveincome) ve sütun türlerini ver;sep=argümanı için virgül kullan. - Virgülle ayrılmış
adult_reduced_100.csvadlı dosyadan veriyi oku. - Ortaya çıkan DataFrame için şemayı yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
from pyspark.sql.types import StructType, StructField, IntegerType, StringType
# Fill in the schema with the columns you need from the exercise instructions
schema = StructType([____("____",____()),
____("____",____()),
____("marital_status",StringType()),
StructField("____",____()),
____("____",____()),
])
# Read in the CSV, using the schema you defined above
census_adult = spark.read.csv("adult_reduced_100.csv", sep='____', header=False, schema=schema)
# Print out the schema
census_adult.____