1. 학습
  2. /
  3. 강의
  4. /
  5. pandas를 이용한 데이터 다루기

Connected

연습 문제

결측치 대체하기

결측치를 처리하는 또 다른 방법은 모든 결측치를 동일한 값으로 대체하는 것입니다. 수치형 변수의 경우, 결측값을 0으로 대체할 수 있는데, 여기서 실습할 내용도 이것입니다. 단, 결측치를 다른 값으로 대체할 때는 해당 값이 무엇을 의미하는지에 대한 가정이 필요합니다. 이 경우에는 판매량이 결측인 이유는 그 주에 해당 유형의 아보카도 판매가 없었음을 의미한다고 가정해봅니다.

이번 연습 문제에서는 히스토그램을 통해 결측치를 대체하는 것이 변수의 분포에 어떤 영향을 미치는지 살펴봅니다. 아래와 같은 방법으로 여러 변수의 히스토그램을 한 번에 그릴 수 있습니다.

dogs[["height_cm", "weight_kg"]].hist()

pandas는 pd로, matplotlib.pyplot은 plt로 임포트되어 있습니다. avocados_2016 데이터 세트를 사용할 수 있습니다.

지침 1/2

undefined XP
    1
    2
  • 결측치가 있는 열("small_sold", "large_sold", "xl_sold")의 이름을 담은 리스트 cols_with_missing이 이미 생성되어 있습니다.
  • 해당 열의 히스토그램을 생성하세요.
  • 그래프를 출력하세요.