1. Lära sig
  2. /
  3. Courses
  4. /
  5. Python으로 재무제표 분석하기

Connected

exercise

백분위수를 사용한 결측값 대치

이번 연습에서는 결측값을 대치하는 방법을 계속 연습해 볼 거예요. 다만 이전 연습과 달리, 평균 대신 백분위수를 사용해 대치값을 계산합니다. 백분위수를 사용하면 보다 보수적인 대치가 가능해요. 한 열의 결측값을 백분위수로 대치하는 기본 절차는 다음과 같습니다:

  • 관심 있는 열에서 결측값을 제거합니다.
  • 그런 다음, 결측값을 제거한 해당 열의 값들로부터 예를 들어 70번째 백분위수를 계산합니다.
  • ‘70번째 백분위에 해당하는 더 나쁜 값’은 어떤 열에서 백분위수를 계산하느냐에 따라 달라집니다:
    • 예를 들어 자산이 많을수록 일반적으로 좋다고 보므로, 자산이 적을수록 더 나쁩니다. 따라서 자산에서 ‘70번째 백분위의 나쁜 값’은 실제로 자산의 30번째 백분위수에 해당해요.
    • 반대로 부채가 많을수록 나쁘다고 보므로, 부채의 ‘70번째로 나쁜 값’은 곧 부채의 70번째 백분위수입니다.

pandas는 pd라는 별칭으로, NumPy는 np라는 별칭으로 불러와 두었습니다. dataset이라는 pandas DataFrame도 준비되어 있어요. 이 DataFrame에는 일부 결측값이 있는 "Total Current Liabilities" 열이 포함되어 있습니다.

Instruktioner 1 / 2

undefined XP
    1
    2
  • "company"별로 결측이 아닌 값의 70번째 백분위수를 사용해 "Total Current Liabilities"의 결측값을 대치하세요.
  • "comp_type"별로 결측이 아닌 값의 70번째 백분위수를 사용해 "Total Current Liabilities"의 결측값을 대치하세요.