1. Lära sig
  2. /
  3. Courses
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

exercise

결측치 시각화

결측치를 시각화하면 데이터의 어느 정도가 비어 있는지 빠르게 파악할 수 있어요. 또한 특정 변수들이 어떤 패턴으로 빠져 있는지도 드러나는데, 이는 모델에 편향이 생기지 않도록 주의 깊게 처리해야 합니다.

어떤 변수가 결측치가 가장 많을까요? 마지막 줄을 제외한 모든 코드를 실행해 정답을 확인해 보세요. 확신이 서면 값을 입력하고 "Submit Answer"를 누르세요.

Instruktioner

100 XP
  • select()를 사용해 데이터프레임 df에서 리스트 columns의 열만 서브셋으로 선택하고, 제공된 sample() 함수를 사용해 샘플링한 뒤, 이 데이터프레임을 변수 sample_df에 할당하세요.
  • 서브셋 데이터프레임을 pandas 데이터프레임 pandas_df로 변환하고, pandas의 isnull()을 사용해 해당 DataFrame을 True/False로 변환하세요. 이 결과를 tf_df에 저장하세요.
  • seaborn의 heatmap()으로 tf_df를 시각화하세요.
  • "Run Code"를 눌러 플롯을 확인한 다음, 결측치가 가장 많은 변수의 이름을 answer에 할당하세요.