1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 배우는 빅데이터 기초

Connected

연습 문제

파트 3: 데이터 시각화

데이터 시각화는 탐색적 데이터 분석(EDA)에 매우 중요합니다. PySpark DataFrame은 고유한 구조와 스키마가 있기 때문에 RDD보다 시각화에 더 적합해요.

이 세 번째 파트에서는 이전 연습 문제에서 만든 DataFrame을 사용해 독일 선수들의 나이 히스토그램을 만들어 보겠습니다. 이를 위해 먼저 PySpark DataFrame을 Pandas DataFrame으로 변환한 다음, matplotlib의 plot() 함수를 사용해 독일 선수들의 나이 분포를 나타내는 밀도 플롯을 그릴 거예요.

SparkSession spark, 임시 테이블 fifa_df_table, 그리고 DataFrame fifa_df_germany_age는 이미 워크스페이스에 준비되어 있습니다.

지침

100 XP
  • fifa_df_germany_age를 Pandas DataFrame fifa_df_germany_age_pandas로 변환하세요.
  • fifa_df_germany_age_pandas의 'Age' 열로 밀도 플롯을 생성하세요.