1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Python으로 연습하는 Machine Learning 면접 질문

Connected

Bài tập

재표본추출 기법

이전 연습 문제에서는 클래스 불균형이 혼동 행렬 결과에 어떤 영향을 주는지 살펴봤어요. 이번 연습 문제에서는 loan_data와 같은 클래스 불균형 데이터셋에 대해, 서로 다른 재표본추출 방식이 결과에 어떤 차이를 만드는지 연습해 보겠습니다. sklearn의 resample() 함수를 사용할 때, 다수 클래스의 행 수에 맞추는 것을 업샘플링, 소수 클래스의 행 수에 맞추는 것을 다운샘플링이라고 합니다.

loan_data 데이터셋의 업샘플링 버전과 다운샘플링 버전을 각각 만든 뒤, 두 데이터셋 모두에 로지스틱 회귀를 적용하고 성능을 평가해 보세요. 학습 데이터와 그 레이블은 deny가 소수 클래스, approve가 다수 클래스로 서브셋되어 있습니다.

예측을 위한 train/test 분할 객체 중 테스트 데이터는 X_test로 작업 공간에 저장되어 있으니, 연습 문제에서 활용하시면 됩니다.

Hướng dẫn 1/3

undefined XP
  • 1
    • 다수 클래스의 길이에 맞춘 소수 클래스 업샘플 버전을 만들고 이어 붙이세요(완료됨).
    • 소수 클래스의 길이에 맞춘 다수 클래스 다운샘플 버전을 만들고 이어 붙이세요(완료됨).
  • 2
    • 업샘플링된 특성 행렬과 타깃 배열을 만드세요.
    • 로지스틱 회귀 모델 객체를 생성하고 학습한 뒤, X_test로 예측하세요.
    • 평가 지표를 출력하세요.
  • 3
    • 다운샘플링된 특성 행렬과 타깃 배열을 만드세요.
    • 로지스틱 회귀 모델 객체를 생성하고 학습한 뒤, X_test로 예측하세요.
    • 평가 지표를 출력하세요.