1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Extrakce textu do nových příznaků

Garáže jsou při prodeji domů v Minnesotě důležitým faktorem — většina lidí tam vlastní auto a čistit ho od sněhu zaparkované venku je pořádná otrava. Záleží i na typu garáže: dostaneš se k autu, aniž bys musel/a vyjít na mráz? Pojďme vytvořit příznak has_attached_garage, který zachytí, zda je garáž připojena přímo k domu, nebo ne.

Pokyny

100 XP
  • Naimportuj potřebnou funkci when() z pyspark.sql.functions.
  • Vytvoř podmínku pro shodu řetězce pomocí like(), která bude v df['GARAGEDESCRIPTION'] hledat vzor Attached Garage — použij zástupné znaky %, aby se shoda mohla nacházet kdekoliv v poli.
  • Podobně vytvoř další podmínku pomocí like(), která bude v df['GARAGEDESCRIPTION'] hledat vzor Detached Garage — opět použij zástupné znaky % pro shodu kdekoliv v poli.
  • Vytvoř nový sloupec has_attached_garage pomocí when(): přiřaď hodnotu 1, pokud jde o připojenou garáž, nulu pro oddělenou a pomocí otherwise() přiřaď null prostřednictvím None, pokud není ani jedno.