1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Pivot i złączenie

Możliwość rozwinięcia i przestawienia (pivot) złożonego pola to świetna rzecz, ale w rezultacie otrzymujesz ramkę danych zawierającą tylko przestawione wartości. Żeby naprawdę wykorzystać jej potencjał, musisz połączyć ją z oryginalnym zbiorem danych! Po złączeniu zbiorów wiele nowo utworzonych kolumn będzie miało wartości NULL – jednak znając kontekst ich powstania, możemy je bezpiecznie zastąpić zerami: dana cecha albo istnieje, albo nie.

Instrukcje

100 XP
  • Przestaw (pivot) wartości ex_garage_list, grupując po identyfikatorze rekordu NO za pomocą groupBy() – użyj dostarczonego kodu, aby zagregować constant_val, pomijając wartości null i przyjmując pierwszą wartość.
  • Wykonaj lewe złączenie piv_df z df, używając NO jako warunku złączenia.
  • Utwórz listę kolumn zfill_cols do wypełnienia zerami, korzystając z atrybutu columns na piv_df.
  • Wypełnij zerami kolumny przestawionej ramki danych, zfill_cols, używając fillna() z parametrem subset.