1. Учиться
  2. /
  3. Courses
  4. /
  5. PySpark로 하는 Machine Learning

Connected

Exercise

열과 행 제거하기

이전에 CSV 파일에서 항공편 데이터를 불러왔습니다. 이제 주어진 항공편이 지연될지 여부를 예측하는 모델을 만들려고 합니다.

이번 연습에서는 다음과 같이 데이터를 정리해야 합니다.

  1. 정보가 없는(유용하지 않은) 열을 제거하고
  2. 항공편 지연 여부 정보가 없는 행을 제거합니다.

데이터는 flights로 제공됩니다.

참고: IPython Shell 옆의 슬라이드 패널에서 수업 슬라이드를 다시 확인하면 도움이 될 수 있어요.

Инструкции

100 XP
  • flight 열을 제거하세요.
  • delay 열에 결측값이 있는 레코드가 몇 개인지 확인하세요.
  • delay 열에 결측값이 있는 레코드를 제거하세요.
  • 어떤 열이든 결측값이 있는 레코드를 제거하고, 남은 행의 개수를 구하세요.