1. Learn
  2. /
  3. Kurser
  4. /
  5. Inżynieria cech z PySpark

Connected

övning

Wyodrębnianie tekstu do nowych cech

Garaże są ważnym kryterium przy wyborze domu w Minnesocie – większość mieszkańców posiada samochód, a odśnieżanie auta parkującego na zewnątrz to prawdziwa uciążliwość. Istotne jest też to, czy garaż jest połączony z domem, co pozwala uniknąć wychodzenia na mróz. Stwórzmy cechę has_attached_garage, która będzie określać, czy garaż jest dobudowany do domu, czy nie.

Instruktioner

100 XP
  • Zaimportuj potrzebną funkcję when() z pyspark.sql.functions.
  • Utwórz warunek dopasowania ciągu znaków za pomocą like(), aby wyszukać wzorzec Attached Garage w kolumnie df['GARAGEDESCRIPTION'] – użyj symbolu wieloznacznego %, tak aby dopasowanie mogło wystąpić w dowolnym miejscu w polu.
  • Analogicznie utwórz kolejny warunek za pomocą like(), aby wyszukać wzorzec Detached Garage w kolumnie df['GARAGEDESCRIPTION'] – również z symbolem wieloznacznym %.
  • Utwórz nową kolumnę has_attached_garage, używając when(), aby przypisać wartość 1, gdy garaż jest dobudowany do domu, 0 gdy jest wolnostojący, oraz użyj otherwise(), aby przypisać wartość null za pomocą None w pozostałych przypadkach.