1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Machine Learning

Connected

연습 문제

항공편 출발지 인코딩

flights 데이터의 org 열은 항공편이 출발하는 공항을 나타내는 범주형 변수입니다.

  • ORD — O'Hare International Airport (Chicago)
  • SFO — San Francisco International Airport
  • JFK — John F Kennedy International Airport (New York)
  • LGA — La Guardia Airport (New York)
  • SMF — Sacramento
  • SJC — San Jose
  • OGG — Kahului (Hawaii)

물론 이 목록은 공항의 극히 일부만 포함합니다. 하지만 이 변수가 범주형이므로, 회귀 모델에 사용하기 전에 one-hot 인코딩이 필요해요.

데이터는 flights 변수에 들어 있습니다. 이미 string indexer를 사용해서 org의 문자열에 대응하는 인덱스 값을 담은 열을 만들어 두었어요.

오른쪽의 IPython Shell 옆 Slides 패널에서 해당 레슨의 슬라이드를 복습하시면 도움이 될 수 있어요.

지침

100 XP
  • one-hot encoder 클래스를 import 하세요.
  • 입력 열을 org_idx, 출력 열을 org_dummy로 지정하여 one-hot encoder 인스턴스를 만드세요.
  • 항공편 데이터에 one-hot encoder를 적용하세요.
  • 범주형 값이 이진 인코딩 더미 변수로 매핑되는 요약을 생성하세요. 고유 값만 포함하고 org_idx 기준으로 정렬하세요.