1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Dzielenie i rozwijanie danych

Przetworzenie złożonego pola, takiego jak GARAGEDESCRIPTION, w coś naprawdę użytecznego to wieloetapowy proces. Warto jak najwcześniej sprawdzić, jaką wartość można uzyskać z jego rozwinięcia. W tym ćwiczeniu przekształcimy nasz łańcuch znaków w tablicę, rozwiniemy ją i przyjrzymy się unikalnym wartościom.

Instrukcje

100 XP
  • Zaimportuj potrzebne funkcje split() i explode() z pyspark.sql.functions.
  • Użyj split(), aby utworzyć nową kolumnę garage_list, dzieląc df['GARAGEDESCRIPTION'] po ', ' – czyli po przecinku i spacji.
  • Użyj explode(), aby dla każdej wartości w df['garage_list'] utworzyć osobny rekord i przypisz go do nowej kolumny ex_garage_list.
  • Użyj distinct(), aby uzyskać unikalne wartości kolumny ex_garage_list, a następnie wywołaj show dla 100 pierwszych wierszy, ograniczając wyświetlanie do 50 znaków.