1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Imputace chybějících hodnot

Chybějící data jsou běžnou realitou. Pokud předpokládáme, že data chybí zcela náhodně, zároveň předpokládáme, že data, která máme k dispozici, dobře reprezentují celou populaci. Pokud chybí jen několik hodnot, můžeme je buď odstranit, nebo nahradit průměrem či mediánem. V tomto cvičení se podíváme na sloupec 'PDOM': počet dní na trhu za aktuální cenu.

Pokyny

100 XP
  • Zjisti počet chybějících hodnot ve sloupci 'PDOM' pomocí funkcí where(), isNull() a count().
  • Vypočítej průměrnou hodnotu sloupce 'PDOM' pomocí agregační funkce mean().
  • Použij fillna() s hodnotou nastavenou na průměr sloupce 'PDOM' a aplikuj ji pouze na tento sloupec pomocí parametru subset.