1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Składniki czasu

Praca ze składnikami czasu jest ważna przy tworzeniu cech, ale możesz ich też używać do eksploracji i lepszego zrozumienia danych. W tym ćwiczeniu sprawdzisz, czy istnieje wzorzec określający, w którym dniu tygodnia dom trafia na ogłoszenie. Pamiętaj, że w PySpark tydzień zaczyna się w niedzielę (wartość 1) i kończy w sobotę (wartość 7).

Instrukcje

100 XP
  • Zaimportuj funkcje to_date() i dayofweek() z modułu pyspark.sql.functions
  • Użyj funkcji to_date(), aby przekonwertować kolumnę LISTDATE na typ daty Sparka, a wynik zapisz w tej samej kolumnie przy użyciu withColumn()
  • Utwórz nową kolumnę na podstawie LISTDATE i funkcji dayofweek(), a następnie zapisz ją jako List_Day_of_Week przy użyciu withColumn()
  • Pobierz próbkę połowy ramki danych, przekonwertuj ją na ramkę danych pandas za pomocą toPandas() i wyświetl wykres liczebności kolumny List_Day_of_Week przy użyciu countplot() z biblioteki Seaborn, ustawiając x = List_Day_of_Week.