1. Learn
  2. /
  3. Kurser
  4. /
  5. Inżynieria cech z PySpark

Connected

övning

Wizualizacje: distplot

Zrozumienie rozkładu zmiennej zależnej jest bardzo ważne – może wpłynąć na wybór modelu oraz na sposób przetwarzania danych. Świetnym sposobem na to jest wizualizacja, jednak PySpark nie ma wbudowanej funkcji do rysowania wykresów, więc potrzebnych jest kilka kroków pośrednich. W tym ćwiczeniu zwizualizujesz zmienną 'LISTPRICE' i lepiej poznasz jej rozkład, obliczając skośność.

Pakiety matplotlib.pyplot i seaborn zostały już zaimportowane z aliasami plt i sns.

Instruktioner

100 XP
  • Pobierz próbkę 50% ramki danych df za pomocą sample() – bez zastępowania i z ziarnem losowości ustawionym na 42.
  • Przekształć Spark DataFrame do pandas.DataFrame() za pomocą toPandas().
  • Narysuj wykres rozkładu, używając metody distplot() z biblioteki seaborn.
  • Zaimportuj funkcję skewness() z pyspark.sql.functions i oblicz ją na agregacie kolumny 'LISTPRICE' za pomocą metody agg(). Pamiętaj, aby wywołać collect() na wyniku, żeby zainicjować obliczenia.