Vizualizace pomocí distplot

Porozumění rozdělení závislé proměnné je velmi důležité a může ovlivnit výběr modelu i způsob předzpracování dat. Skvělý způsob, jak toho dosáhnout, je vizualizace – jenže vykreslování grafů není v PySparku vestavěná funkce, takže je potřeba provést několik mezikroků. V tomto cvičení vizualizuješ proměnnou 'LISTPRICE' a pomocí výpočtu šikmosti získáš hlubší přehled o jejím rozdělení.

Balíčky matplotlib.pyplot a seaborn jsou již naimportovány s aliasy plt a sns.

Pomocí metody sample() vytvoř 50% vzorek dataframu df – bez nahrazování a s náhodným seedem nastaveným na 42.
Převeď Spark DataFrame na pandas.DataFrame() pomocí toPandas().
Vykresli distribuční graf metodou distplot() z balíčku seaborn.
Naimportuj funkci skewness() z pyspark.sql.functions a spočítej ji na agregaci sloupce 'LISTPRICE' pomocí metody agg(). Nezapomeň výsledek vyhodnotit zavoláním collect().

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení