ćwiczenie

Podział na kolumny

Dane są już znacznie porządniejsze – udało się usunąć nieprawidłowe wiersze z DataFrame'a. Teraz chcesz wykonać kolejne przekształcenia: wygenerować konkretne, znaczące kolumny na podstawie zawartości DataFrame'a.

Masz dostęp do kontekstu spark oraz do najnowszej wersji DataFrame'a annotations_df. Biblioteka pyspark.sql.functions jest dostępna pod aliasem F.

Instrukcje

100 XP

Podziel zawartość kolumny '_c0' według znaku tabulacji i zapisz wynik w zmiennej o nazwie split_cols.
Na podstawie pierwszych czterech elementów powyższej zmiennej dodaj do DataFrame'a o nazwie split_df następujące kolumny: folder, filename, width, height.
Dodaj zmienną split_cols jako kolumnę.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie