1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Výpočet podílu chybějících hodnot

Automatizace je budoucnost datové vědy. Naučit se automatizovat přípravu dat se ti rozhodně vyplatí. V tomto cvičení si napíšeš funkci, která automaticky odstraní sloupce s příliš velkým podílem chybějících hodnot – podle zadaného prahu.

Pokyny

100 XP
  • Definuj funkci column_dropper(), která přijme parametry df (datový rámec) a threshold (desetinné číslo od 0 do 1).
  • Spočítej podíl chybějících hodnot pomocí where(), isNull() a count().
  • Zkontroluj, jestli je podíl chybějících hodnot vyšší než prahová hodnota – pokud ano, odstraň sloupec pomocí drop().
  • Spusť column_dropper() na df s prahem nastaveným na .6.