1. 학습
  2. /
  3. 강의
  4. /
  5. pandas로 데이터 다루기

Connected

연습 문제

결측값 대체하기

결측값을 처리하는 또 다른 방법은 모든 결측값을 동일한 값으로 바꾸는 것입니다. 수치형 변수의 경우 0으로 대체하는 방법이 한 가지 선택지인데, 여기서는 그렇게 해볼 거예요. 다만 결측값을 대체할 때는 결측이 무엇을 의미하는지에 대한 가정을 하게 됩니다. 이번에는 판매 수치가 비어 있으면 그 주에 해당 아보카도 유형의 판매가 없었다고 가정하겠습니다.

이 연습 문제에서는 히스토그램을 사용해 결측값 대체가 변수의 분포에 어떤 영향을 주는지 살펴봅니다. 여러 변수를 한 번에 히스토그램으로 그리려면 다음과 같이 하면 됩니다:

dogs[["height_cm", "weight_kg"]].hist()

pandas는 pd로, matplotlib.pyplot은 plt로 임포트되어 있습니다. avocados_2016 데이터셋을 사용할 수 있어요.

지침 1/2

undefined XP
    1
    2
  • 결측값이 있는 열 이름("small_sold", "large_sold", "xl_sold")이 담긴 리스트 cols_with_missing가 준비되어 있습니다.
  • 해당 열들에 대한 히스토그램을 그리세요.
  • 플롯을 표시하세요.