BaşlayınÜcretsiz Başlayın

Görsel başına adet

Bu veri kümesi için bir veri ardışık düzeni kurarken sıradaki görevin, analize yönelik birkaç sütun oluşturmak. Daha önce oluşturduğun dog_list sütununa dayanarak, her görselde bulunan köpek sayısını hesaplaman isteniyor. Ayrıca bazı veri sütunlarının içinde daha iyi ayrıştırma yapmanı sağlayacak DogType yapısını da oluşturdun.

joined_df, en son tanımladığın haliyle kullanılabilir durumda ve DogType StructType olarak tanımlı. pyspark.sql.functions ise F kısaltmasıyla erişilebilir.

Bu egzersiz

PySpark ile Veri Temizleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • dog_list içindeki her girdiyi uygun parçalara ayıracak bir Python fonksiyonu oluştur. Herhangi bir dizeyi uygun tiplere dönüştürdüğünden emin ol; aksi halde DogType doğru biçimde ayrışmaz.
  • Yukarıdaki fonksiyonu kullanarak bir UDF oluştur.
  • UDF'yi kullanarak dogs adlı yeni bir sütun oluştur.
  • İlk 10 satır için yeni sütundaki köpek sayısını göster.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create a function to return the number and type of dogs as a tuple
def dogParse(doglist):
  dogs = []
  for dog in doglist:
    (breed, start_x, start_y, end_x, end_y) = dog.____('____')
    dogs.append((____, int(____), ____, ____, ____))
  return dogs

# Create a UDF
udfDogParse = ____(____, ArrayType(____))

# Use the UDF to list of dogs
joined_df = joined_df.____('____', ____('____'))

# Show the number of dogs in the first 10 rows
joined_df.____(____('____')).____(____)
Kodu Düzenle ve Çalıştır