1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Počítání s daty

V tomto příkladu si ověříme frekvenci našich dat. Hypotekární dataset by měl obsahovat týdenní záznamy – pojďme to zkontrolovat tak, že posuneme datum reportu o jedno období zpět a spočítáme rozdíl mezi daty.

Pro vytvoření zpožděného příznaku (lagged feature) je potřeba nejprve definovat window(). Funkce window() ti umožňuje vrátit hodnotu pro každý záznam na základě výpočtu přes skupinu záznamů – v tomto případě půjde o hypoteční sazbu z předchozího období.

Pokyny

100 XP
  • Převeď mort_df['DATE'] na datový typ date pomocí to_date()
  • Vytvoř okno pomocí funkce Window() a seřaď záznamy podle mort_df[DATE] pomocí orderBy()
  • Vytvoř nový sloupec DATE-1 pomocí withColumn() tak, že posunout sloupec DATE o jedno období zpět funkcí lag() a aplikuj okno pomocí over(w)
  • Vypočítej rozdíl mezi DATE a DATE-1 pomocí datediff() a výsledný sloupec pojmenuj Days_Between_Report