1. 学习
  2. /
  3. 课程
  4. /
  5. PySpark로 하는 Machine Learning

Connected

练习

Logistic Regression 모델 구축

이미 항공편 데이터를 사용해 Decision Tree 모델을 만들어 보셨습니다. 이제 같은 데이터로 Logistic Regression 모델을 만들어 보겠습니다.

목표는 항공편이 최소 15분 이상 지연될 가능성이 있는지(레이블 1) 아닌지(레이블 0)를 예측하는 것입니다.

사용할 수 있는 예측 변수가 다양하지만, 여기서는 우선 mon, depart, duration 열만 사용합니다. 이들은 수치형 특징으로, Logistic Regression 모델에 바로 사용할 수 있습니다. 범주형 특징을 포함하려면 약간의 전처리가 더 필요합니다. 계속 이어서 진행해 볼게요!

데이터는 학습용과 테스트용으로 분할되어 있으며, 각각 flights_train과 flights_test로 제공됩니다.

说明

100 XP
  • Logistic Regression 분류기를 생성하는 클래스를 가져오세요.
  • 분류기 객체를 만들고 학습 데이터로 학습시키세요.
  • 테스트 데이터에 대한 예측을 만들고 혼동 행렬을 생성하세요.