1. 학습
  2. /
  3. 강의
  4. /
  5. Inżynieria cech z PySpark

Connected

연습 문제

Działania na datach

W tym ćwiczeniu sprawdzimy, z jaką częstotliwością pojawiają się dane. Zbiór danych Mortgage powinien zawierać dane tygodniowe – upewnijmy się co do tego, przesuwając datę raportu o jeden okres wstecz, a następnie obliczając różnicę między datami.

Pamiętaj, że do utworzenia cechy opóźnionej potrzebujesz window(). Funkcja window() pozwala zwrócić wartość dla każdego rekordu na podstawie obliczeń wykonanych na grupie rekordów – w tym przypadku na stopie hipotecznej z poprzedniego okresu.

지침

100 XP
  • Rzutuj mort_df['DATE'] na typ daty za pomocą to_date()
  • Utwórz okno funkcją Window() i użyj orderBy(), aby posortować dane według mort_df[DATE]
  • Dodaj nową kolumnę DATE-1 za pomocą withColumn(), przesuwając kolumnę DATE o jeden okres wstecz funkcją lag(), a następnie zastosuj okno przy użyciu over(w)
  • Oblicz różnicę między DATE a DATE-1 za pomocą datediff() i nazwij wynikową kolumnę Days_Between_Report