1. Învăţa
  2. /
  3. Courses
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

exercise

시각화 사용하기: distplot

종속 변수의 분포를 이해하는 것은 매우 중요하며, 우리가 선택하는 모델 유형이나 전처리에 영향을 줄 수 있어요. 이를 확인하는 좋은 방법은 직접 그려보는 것이지만, PySpark에는 기본 제공 플로팅 기능이 없기 때문에 올바르게 작동하도록 중간 단계를 거쳐야 합니다. 이 연습 문제에서는 'LISTPRICE' 변수를 시각화하고, 왜도(skewness)를 계산하여 분포에 대한 인사이트를 더 얻어 볼 거예요.

matplotlib.pyplot과 seaborn 패키지는 각각 plt, sns 별칭으로 이미 임포트되어 있습니다.

Instrucţiuni

100 XP
  • sample()을 사용해 데이터프레임 df의 50%를 샘플링하세요. 이때 복원 추출은 사용하지 말고, 랜덤 시드는 42로 설정하세요.
  • Spark DataFrame을 toPandas()로 pandas.DataFrame()으로 변환하세요.
  • seaborn의 distplot() 메서드로 분포 그래프를 그리세요.
  • pyspark.sql.functions에서 skewness() 함수를 임포트한 뒤, agg() 메서드로 'LISTPRICE' 열의 집계에 대해 왜도를 계산하세요. 계산을 평가하려면 결과에 collect()를 호출하는 것을 잊지 마세요.