1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 배우는 빅데이터 기초

Connected

연습 문제

파트 1: CSV 파일에서 DataFrame 생성

4년마다 전 세계 축구 팬들은 “Fifa World Cup”이라는 축제를 맞이하고, 많은 나라에서 그에 따라 모든 것이 달라지기도 해요. 이 3단계 연습 문제에서는 PySpark SQL을 사용해 "FIFA 2018 World Cup Player" 데이터셋으로 탐색적 데이터 분석(EDA)을 수행할 거예요. 여기에는 DataFrame 연산, SQL 쿼리, 시각화가 포함돼요.

첫 번째 파트에서는 CSV 형식의 FIFA 2018 World Cup Players 데이터셋(Fifa2018_dataset.csv)을 PySpark DataFrame으로 로드하고, 기본적인 DataFrame 연산으로 데이터를 살펴보세요.

워크스페이스에는 이미 SparkSession spark와 변수 file_path가 준비되어 있다는 점을 기억하세요.

지침

100 XP
  • file_path(즉, Fifa2018_dataset.csv 파일의 경로)에서 PySpark DataFrame을 생성하세요.
  • DataFrame의 스키마를 출력하세요.
  • 처음 10개의 관측값을 출력하세요.
  • 이 DataFrame에는 행이 모두 몇 개 있나요?