1. Learn
  2. /
  3. Courses
  4. /
  5. PySpark 입문

Connected

Exercise

인구조사 데이터 불러오기

이제 첫 번째 PySpark DataFrame을 만들어 볼까요? adult_reduced.csv 파일에는 다양한 인구통계 범주에 따라 성인을 그룹화한 데이터가 들어 있습니다. 이 데이터는 US Census에서 가져와 가공한 것입니다. 총 32,562개의 성인 그룹이 있습니다.

CSV를 불러와서 생성된 스키마를 확인해 보세요.

데이터 사전:

Variable Description
age 개인의 나이
education_num 학력(학위 기준)
marital_status 결혼 상태
occupation 직업
income 소득(범주형)

Instructions

100 XP
  • spark.read.csv() 메서드를 사용해 "adult_reduced.csv" 파일에서 PySpark DataFrame을 생성하세요.
  • 생성된 DataFrame을 출력해 확인하세요.