1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Binarizace dne v týdnu

V předchozím videu jsme viděli, že domy se na víkend přidávají do nabídky jen zřídka. Vytvoříme nové pole, které bude říkat, jestli je nemovitost inzerována v pracovní den, nebo ne. V tomto příkladu máme pole List_Day_of_Week, kde pondělí je označeno hodnotou 1.0 a neděle hodnotou 7.0. Převedeme ho na binární pole, kde pracovní den bude 0 a víkend 1. K tomu použijeme feature transformer Binarizer z PySparku.

Pokyny

100 XP
  • Importuj feature transformer Binarizer z modulu ml.feature v pyspark.
  • Vytvoř transformer pomocí Binarizer() – nastav práh pro přiřazení hodnoty 1 na vše po pátku, tedy 5.0, vstupní sloupec jako List_Day_of_Week a výstupní sloupec jako Listed_On_Weekend.
  • Aplikuj transformaci binarizéru na df pomocí metody transform().
  • Ověř, že transformace proběhla správně, tak že vyberéš sloupce List_Day_of_Week a Listed_On_Weekend a zobrazíš je pomocí show().