1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Vizualizace dat: lmplot

Grafy lineárního modelu nám pomáhají vizuálně ověřit, zda mezi proměnnými a závislou proměnnou existuje vztah. Pokud ano, jsou to dobří kandidáti pro zařazení do analýzy. Pokud ne, neznamená to, že je máme rovnou zahodit – možná je budeme muset nejprve zpracovat nebo upravit, než je budeme moci využít.

seaborn je v tvém pracovním prostředí dostupný pod obvyklým aliasem sns.

Pokyny

100 XP
  • Z načteného datasetu df vyber pomocí select() pouze sloupce 'SALESCLOSEPRICE' a 'LIVINGAREA'.
  • Pomocí sample() náhodně vyber 50 % řádků dataframu – bez nahrazování a s náhodným seedem nastaveným na 42.
  • Převeď Spark DataFrame na pandas.DataFrame() pomocí toPandas().
  • Jako závislou proměnnou použij 'SALESCLOSEPRICE' a jako nezávislou 'LIVINGAREA' a vykresli graf lineárního modelu pomocí lmplot() z knihovny seaborn.