1. Learn
  2. /
  3. Cursuri
  4. /
  5. Feature Engineering with PySpark

Connected

exercițiu

Časové složky

Práce s časovými složkami je důležitá nejen pro tvorbu příznaků, ale také pro lepší pochopení a prozkoumání dat. V tomto cvičení se zaměříš na to, zda existuje vzorec v tom, který den v týdnu jsou domy zalistovány. Měj na paměti, že v PySparku týden začíná nedělí s hodnotou 1 a končí sobotou s hodnotou 7.

Instrucțiuni

100 XP
  • Importuj funkce to_date() a dayofweek() z pyspark.sql.functions
  • Pomocí funkce to_date() převeď sloupec LISTDATE na Spark datový typ a výsledek ulož zpět do stejného sloupce pomocí withColumn()
  • Vytvoř nový sloupec ze sloupce LISTDATE s použitím dayofweek() a ulož ho jako List_Day_of_Week pomocí withColumn()
  • Vezmi vzorek poloviny dataframu, převeď ho na pandas dataframe pomocí toPandas() a vykresli počty hodnot sloupce List_Day_of_Week pomocí seaborn funkce countplot(), kde x = List_Day_of_Week.