1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w PySpark

Connected

ćwiczenie

Podział na kolumny

Dane są już znacznie porządniejsze – udało się usunąć nieprawidłowe wiersze z DataFrame'a. Teraz chcesz wykonać kolejne przekształcenia: wygenerować konkretne, znaczące kolumny na podstawie zawartości DataFrame'a.

Masz dostęp do kontekstu spark oraz do najnowszej wersji DataFrame'a annotations_df. Biblioteka pyspark.sql.functions jest dostępna pod aliasem F.

Instrukcje

100 XP
  • Podziel zawartość kolumny '_c0' według znaku tabulacji i zapisz wynik w zmiennej o nazwie split_cols.
  • Na podstawie pierwszych czterech elementów powyższej zmiennej dodaj do DataFrame'a o nazwie split_df następujące kolumny: folder, filename, width, height.
  • Dodaj zmienną split_cols jako kolumnę.