1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

연습 문제

시간 구성 요소로 조인하기

다른 정보 집합을 조인할 때 날짜 구성 요소를 자주 사용해요. 하지만 이 예제에서는 집을 사려는 사람이 이용할 수 있었던 데이터를 사용해야 합니다. 즉, 분석에는 전년도 보고 데이터를 사용해야 해요.

지침

100 XP
  • year()를 사용해 LISTDATE에서 연도를 추출하고, withColumn()으로 list_year라는 새 열에 넣으세요
  • list_year에서 1을 빼서 report_year라는 또 다른 새 열을 만드세요
  • df['CITY']를 price_df['City']와, df['report_year']를 price_df['Year']와 일치시키는 조인 조건을 만드세요
  • df와 price_df 사이에 left join을 수행하세요