1. 학습
  2. /
  3. 프로젝트
  4. /
  5. 사례 연구: R로 도시 시계열 데이터 분석

Connected

연습 문제

누락된 데이터 대체 - I

이전 연습 문제에서 확인했듯이, 분기별 GDP 데이터에는 몇몇 관측값이 누락된 것으로 보입니다. 실제로, 이전 연습 문제에서 실행한 summary() 결과에 따르면 누락된 데이터 포인트가 80개나 있었습니다!

첫 번째 xts 강의에서 보셨듯이, xts와 zoo에는 결측치를 처리하는 다양한 함수가 있습니다.

가장 간단한 방법은 na.locf() 명령으로, 결측치가 나타나기 전의 마지막 관측값을 앞으로 전달해 채웁니다(즉, "last observation carried forward", 약자 locf). 데이터의 성장률을 보수적으로 다뤄야 하는 이유가 있을 때 특히 적합한 방법입니다.

비슷한 방법으로, 결측치 이후의 첫 관측값을 뒤로 전달해 채우는 방식도 있습니다(“next observation carried backward”, 약자 nocb). 이는 na.locf()에서 fromLast 인수를 TRUE로 설정해 수행할 수 있습니다.

어떤 방법이 최선인지는 다루는 데이터의 유형과 시간이 지남에 따라 데이터가 어떻게 변한다고 보는지에 달려 있습니다.

지침

100 XP
  • na.locf()를 사용해 gdp_xts의 결측치를 마지막 관측값을 앞으로 전달하는 방식으로 채우세요. 새 xts 객체 이름은 gdp_locf로 저장하세요.
  • na.locf()를 한 번 더 호출해 gdp_xts의 결측치를 결측치 이후의 관측값을 뒤로 전달하는 방식으로 채우세요. 이를 위해 fromLast 인수를 TRUE로 설정하세요. 새 xts 객체 이름은 gdp_nocb로 저장하세요.
  • plot.xts()로 두 객체를 각각 그리세요. 두 그래프를 함께 표시하려면 미리 작성된 par() 명령을 포함하세요.
  • 각 객체(gdp_locf, gdp_nocb)에서 1993년의 GDP를 조회하세요.