1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Machine Learning

Connected

연습 문제

항공편 데이터 불러오기

이번 연습에서는 CSV 파일에서 항공편 데이터를 불러오겠습니다. 실행 속도를 위해 데이터는 50,000개 레코드로 축약해 두었습니다. 같은 형식의 더 큰 데이터셋은 여기에서 받을 수 있어요.

CSV 형식 참고:

  • 필드는 쉼표로 구분됩니다(기본 구분자)
  • 결측치는 문자열 'NA'로 표시됩니다.

데이터 사전:

  • mon — 월(1부터 12 사이의 정수)
  • dom — 일(1부터 31 사이의 정수)
  • dow — 요일(정수; 1 = 월요일, 7 = 일요일)
  • carrier — 항공사(IATA code)
  • flight — 항공편 번호
  • org — 출발 공항(IATA code)
  • mile — 거리(마일)
  • depart — 출발 시각(시간 단위 소수)
  • duration — 예상 비행 시간(분)
  • delay — 지연 시간(분)

pyspark는 이미 임포트되어 있고 세션도 초기화되어 있어요.

참고: 데이터는 강하게 다운샘플링되었습니다.

지침

100 XP
  • flights.csv라는 CSV 파일에서 데이터를 읽으세요. 열의 데이터 유형은 자동으로 할당하고, 결측치를 적절히 처리하세요.
  • 데이터에는 레코드가 몇 개 있나요?
  • 처음 다섯 개 레코드를 확인하세요.
  • 각 열에 어떤 데이터 유형이 할당되었나요? 적절해 보이나요?