1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Vizualizace pomocí distplot

Porozumění rozdělení závislé proměnné je velmi důležité a může ovlivnit výběr modelu i způsob předzpracování dat. Skvělý způsob, jak toho dosáhnout, je vizualizace – jenže vykreslování grafů není v PySparku vestavěná funkce, takže je potřeba provést několik mezikroků. V tomto cvičení vizualizuješ proměnnou 'LISTPRICE' a pomocí výpočtu šikmosti získáš hlubší přehled o jejím rozdělení.

Balíčky matplotlib.pyplot a seaborn jsou již naimportovány s aliasy plt a sns.

Pokyny

100 XP
  • Pomocí metody sample() vytvoř 50% vzorek dataframu df – bez nahrazování a s náhodným seedem nastaveným na 42.
  • Převeď Spark DataFrame na pandas.DataFrame() pomocí toPandas().
  • Vykresli distribuční graf metodou distplot() z balíčku seaborn.
  • Naimportuj funkci skewness() z pyspark.sql.functions a spočítej ji na agregaci sloupce 'LISTPRICE' pomocí metody agg(). Nezapomeň výsledek vyhodnotit zavoláním collect().