1. Learn
  2. /
  3. Kurser
  4. /
  5. Czyszczenie danych w PySpark

Connected

övning

Liczba obiektów na obraz

Kolejnym krokiem w budowaniu potoku danych dla tego zbioru jest utworzenie kilku kolumn analitycznych. Zadanie polega na obliczeniu liczby psów widocznych na każdym zdjęciu – na podstawie kolumny dog_list utworzonej wcześniej. Zdefiniowano też typ DogType, który umożliwia precyzyjniejsze parsowanie danych w wybranych kolumnach.

Ramka danych joined_df jest dostępna w ostatniej zdefiniowanej postaci, a typ StructType DogType jest już zdefiniowany. Biblioteka pyspark.sql.functions jest dostępna pod aliasem F.

Instruktioner

100 XP
  • Utwórz funkcję Pythona, która podzieli każdy wpis w kolumnie dog_list na odpowiednie części. Pamiętaj o konwersji ciągów znaków na właściwe typy – bez tego DogType nie sparsuje danych poprawnie.
  • Utwórz UDF na podstawie powyższej funkcji.
  • Użyj UDF, aby utworzyć nową kolumnę o nazwie dogs.
  • Wyświetl liczbę psów w nowej kolumnie dla pierwszych 10 wierszy.