1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

演習

시각화 활용하기: lmplot

선형 모델 플롯을 만들면 변수들이 종속 변수와 관계가 있는지 시각적으로 확인할 수 있어요. 관계가 있다면 분석에 포함할 좋은 후보입니다. 관계가 없다고 해서 버려야 한다는 뜻은 아니고, 사용하기 전에 처리나 정리가 필요할 수 있다는 의미예요.

작업 공간에는 seaborn이 일반적인 별칭 sns로 준비되어 있어요.

指示

100 XP
  • 로드된 데이터셋 df에서 select()를 사용해 'SALESCLOSEPRICE'와 'LIVINGAREA' 열만 선택하세요.
  • sample()로 데이터프레임의 50%를 추출하되, 복원 추출을 사용하지 않고 랜덤 시드를 42로 설정하세요.
  • Spark DataFrame을 toPandas()로 pandas.DataFrame()으로 변환하세요.
  • 'SALESCLOSEPRICE'를 종속 변수로, 'LIVINGAREA'를 독립 변수로 사용해 seaborn의 lmplot()으로 선형 모델 플롯을 그리세요.