Görsel başına adet

Bu veri kümesi için bir veri ardışık düzeni kurarken sıradaki görevin, analize yönelik birkaç sütun oluşturmak. Daha önce oluşturduğun dog_list sütununa dayanarak, her görselde bulunan köpek sayısını hesaplaman isteniyor. Ayrıca bazı veri sütunlarının içinde daha iyi ayrıştırma yapmanı sağlayacak DogType yapısını da oluşturdun.

joined_df, en son tanımladığın haliyle kullanılabilir durumda ve DogType StructType olarak tanımlı. pyspark.sql.functions ise F kısaltmasıyla erişilebilir.

Bu egzersiz, kursun bir parçasıdır

PySpark ile Veri Temizleme

Kursa Göz Atın

Egzersiz talimatları

dog_list içindeki her girdiyi uygun parçalara ayıracak bir Python fonksiyonu oluştur. Herhangi bir dizeyi uygun tiplere dönüştürdüğünden emin ol; aksi halde DogType doğru biçimde ayrışmaz.
Yukarıdaki fonksiyonu kullanarak bir UDF oluştur.
UDF'yi kullanarak dogs adlı yeni bir sütun oluştur.
İlk 10 satır için yeni sütundaki köpek sayısını göster.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create a function to return the number and type of dogs as a tuple
def dogParse(doglist):
  dogs = []
  for dog in doglist:
    (breed, start_x, start_y, end_x, end_y) = dog.____('____')
    dogs.append((____, int(____), ____, ____, ____))
  return dogs

# Create a UDF
udfDogParse = ____(____, ArrayType(____))

# Use the UDF to list of dogs
joined_df = joined_df.____('____', ____('____'))

# Show the number of dogs in the first 10 rows
joined_df.____(____('____')).____(____)

Kodu Düzenle ve Çalıştır