1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 Machine Learning 모니터링

Connected

연습 문제

데이터 품질 점검

이전 영상에서 보셨듯이, 결측값은 유용한 정보를 잃게 하고 잘못된 해석으로 이어질 수 있어요. 마찬가지로, 미보던 값(unseen values) 이 존재하면 모델의 신뢰도에도 영향을 줄 수 있습니다.

이번 연습에서는 호텔 예약 데이터셋에 결측값이 있는지 살펴보고, 미보던 값이 있는지 확인해 보려고 합니다. 참조(reference) 데이터셋과 분석(analysis) 데이터셋, 그리고 nannyml 라이브러리는 이미 로드되어 있습니다.

간단히 기억을 되살리면, 컬럼 타입이 기억나지 않을 때는 .head() 메서드로 데이터를 쉽게 확인할 수 있어요.

지침 1/2

undefined XP
  • 1
    • 결측값 계산기를 초기화하세요. 선택한 컬럼들을 column_names에 전달하고, chunk_period는 월 단위로 설정하세요.
  • 2
    • 범주형 컬럼 이름 country와 hotel을 추가하고, 미보던 값 계산기를 초기화한 다음, categorical_columns를 column names로 전달하세요.