Bir şema tanımlama
Tanımlı bir şema oluşturmak, veri kalitesine ve içe aktarma performansına yardımcı olur. Derste bahsettiğimiz gibi, aşağıdaki sütunları okumak için basit bir şema oluşturacağız:
- Name
- Age
- City
Name ve City sütunları StringType() ve Age sütunu IntegerType() tipindedir.
Bu egzersiz
PySpark ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
pyspark.sql.typeskütüphanesinden*içe aktar.StructTypeyöntemini kullanarak yeni bir şema tanımla.name,agevecityiçin birerStructFieldtanımla. Her alan doğru veri türüne karşılık gelmeli venullableolmamalı.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import the pyspark.sql.types library
____
# Define a new schema using the StructType method
people_schema = ____([
# Define a StructField for each field
StructField('name', ____, False),
____('____', IntegerType(), ____)
____
])