1. 학습
  2. /
  3. 강의
  4. /
  5. 엔드 투 엔드 Machine Learning

Connected

연습 문제

Kolmogorov-Smirnov 검정을 이용한 데이터 드리프트 탐지

심장병 예측 모델을 성공적으로 배포한 뒤, 성능과 입력 데이터를 모니터링해 왔어요. 2월에 수집된 최신 데이터에서 일부 핵심 특성의 분포가 1월에 학습한 데이터와 조금 다르게 보였어요. 이런 차이는 모델 성능에 영향을 줄 수 있으므로, 이를 탐지하고 대응하는 것이 중요합니다.

이 연습 문제에서는 Kolmogorov-Smirnov(K-S) 검정을 사용하여 1월 데이터셋과 2월 데이터셋 사이에 잠재적인 데이터 드리프트가 있는지 확인해 보겠습니다. 샘플 데이터셋 january_data와 february_data는 이미 로드되어 있습니다.

지침

100 XP
  • scipy.stats 모듈에서 ks_2samp 함수를 가져오세요.
  • 제공된 샘플 데이터셋 january_data와 february_data를 사용해 Kolmogorov-Smirnov 검정을 수행하고, 검정 통계량과 p-value를 계산하세요.
  • p-value가 0.05보다 작으면 데이터 드리프트가 있는 것으로 간주하세요. 데이터 드리프트가 탐지되면 "Data drift detected."를, 그렇지 않으면 "No data drift detected."를 출력하세요.