1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Vizualizace chybějících hodnot

Vizualizace chybějících hodnot je skvělý způsob, jak rychle zjistit, kolik dat ti chybí. Může také odhalit, zda chybějící hodnoty sledují nějaký vzor – a to je něco, s čím je potřeba zacházet opatrně, aby tvůj model nebyl zkreslený.

Která proměnná má nejvíce chybějících hodnot? Spusť všechny řádky kódu kromě posledního a zjisti odpověď. Až si budeš jistý/á, doplň hodnotu a klikni na "Submit Answer".

Pokyny

100 XP
  • Pomocí select() vyber z dataframu df sloupce ze seznamu columns, přidej vzorkování pomocí připravené funkce sample() a výsledek ulož do proměnné sample_df.
  • Převeď tento subset dataframe na pandas dataframe pandas_df a pomocí isnull() z pandas ho převeď na hodnoty True/False. Výsledek ulož do tf_df.
  • Pomocí seabornovy funkce heatmap() vykresli tf_df.
  • Klikni na "Run Code" a prohlédni si graf. Pak přiřaď název proměnné s nejvíce chybějícími hodnotami do answer.