Sütunlara ayırma
Geçersiz satırları DataFrame'den kaldırarak verini epey temizledin. Şimdi DataFrame içeriğine göre anlamlı ve belirli sütunlar oluşturarak birkaç ek dönüşüm yapmak istiyorsun.
spark bağlamın ve annotations_df DataFrame'inin en güncel sürümü elinde. pyspark.sql.functions modülü F takma adıyla kullanılabilir.
Bu egzersiz
PySpark ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
'_c0'sütununun içeriğini sekme karakterinden böl vesplit_colsadlı bir değişkende sakla.- Yukarıdaki değişkendeki ilk dört girişe göre şu sütunları,
split_dfadlı bir DataFrame üzerinde ekle: folder, filename, width, height. split_colsdeğişkenini bir sütun olarak ekle.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Split the content of _c0 on the tab character (aka, '\t')
split_cols = ____(annotations_df['____'], '\t')
# Add the columns folder, filename, width, and height
split_df = annotations_df.withColumn('folder', split_cols.getItem(____))
split_df = split_df.withColumn('filename', ____
split_df = split_df.____
____
# Add split_cols as a column
split_df = split_df.____