1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Binaryzacja dnia tygodnia

W poprzednim filmie zobaczyliśmy, że wystawienie domu na sprzedaż w weekend zdarza się bardzo rzadko. Stwórzmy nowe pole określające, czy dom jest wystawiony na sprzedaż w dzień roboczy. W tym przykładzie mamy pole List_Day_of_Week, w którym poniedziałek ma wartość 1.0, a niedziela – 7.0. Przekształćmy je w pole binarne: dzień roboczy to 0, a weekend to 1. Użyjemy do tego transformera cech PySpark – Binarizer.

Instrukcje

100 XP
  • Zaimportuj transformer cech Binarizer z modułu pyspark i ml.feature.
  • Utwórz transformer za pomocą Binarizer(), ustawiając próg przypisania wartości 1 na wszystko po piątku, czyli 5.0, a następnie ustaw kolumnę wejściową jako List_Day_of_Week i kolumnę wyjściową jako Listed_On_Weekend.
  • Zastosuj transformację binaryzatora na df za pomocą transform().
  • Sprawdź, czy transformacja przebiegła poprawnie, wybierając kolumny List_Day_of_Week i Listed_On_Weekend i wywołując show().