Veri tipleri
Aferin! Modellemeye başlamadan önce bilmen gereken önemli bir nokta var: Spark yalnızca sayısal verileri işler. Yani DataFrame'indeki tüm sütunlar ya tamsayı ya da ondalık (Spark'ta 'double' olarak adlandırılır) olmalıdır.
Verileri içe aktarırken, her sütunun ne tür bilgi içerdiğini Spark'ın tahmin etmesine izin verdik. Ne yazık ki Spark her zaman doğru tahmin etmiyor ve DataFrame'imizdeki bazı sütunların, gerçek sayısal değerler yerine sayıları içeren string'ler olduğunu görebilirsin.
Bunu düzeltmek için .cast() metodunu .withColumn() metodu ile birlikte kullanabilirsin.
Şunu unutmamak önemli: .cast() sütunlarda, .withColumn() ise DataFrame'lerde çalışır.
.cast()'e geçirmen gereken tek argüman, oluşturmak istediğin değerin türüdür ve bunu string olarak verirsin. Örneğin tamsayılar oluşturmak için "integer", ondalık sayılar için "double" argümanlarını kullanırsın.
Bu .cast() çağrısını, var olan sütunun üzerine yazmak için .withColumn() çağrısının içine koyabilirsin; tıpkı önceki bölümde yaptığın gibi!
Spark modelleme için ne tür veriye ihtiyaç duyar?
Bu egzersiz
PySpark Temelleri
kursunun bir parçasıdırUygulamalı interaktif egzersiz
İnteraktif egzersizlerimizden biriyle teoriyi pratiğe dökün
Egzersizi başlat