BaşlayınÜcretsiz Başlayın

Sütunlara ayırma

Geçersiz satırları DataFrame'den kaldırarak verini epey temizledin. Şimdi DataFrame içeriğine göre anlamlı ve belirli sütunlar oluşturarak birkaç ek dönüşüm yapmak istiyorsun.

spark bağlamın ve annotations_df DataFrame'inin en güncel sürümü elinde. pyspark.sql.functions modülü F takma adıyla kullanılabilir.

Bu egzersiz

PySpark ile Veri Temizleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • '_c0' sütununun içeriğini sekme karakterinden böl ve split_cols adlı bir değişkende sakla.
  • Yukarıdaki değişkendeki ilk dört girişe göre şu sütunları, split_df adlı bir DataFrame üzerinde ekle: folder, filename, width, height.
  • split_cols değişkenini bir sütun olarak ekle.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Split the content of _c0 on the tab character (aka, '\t')
split_cols = ____(annotations_df['____'], '\t')

# Add the columns folder, filename, width, and height
split_df = annotations_df.withColumn('folder', split_cols.getItem(____))
split_df = split_df.withColumn('filename', ____
split_df = split_df.____
____

# Add split_cols as a column
split_df = split_df.____
Kodu Düzenle ve Çalıştır