1. Učit se
  2. /
  3. Projekty
  4. /
  5. Případová studie: Analýza časových řad městských dat v R

Connected

cvičení

Nahrazení chybějících hodnot – I

Jak jsi zjistil/a v předchozím cvičení, ve čtvrtletních datech HDP chybí několik pozorování. Konkrétně volání summary() odhalilo 80 chybějících hodnot!

Jak si možná pamatuješ z kurzu xts, knihovny xts a zoo nabízejí řadu funkcí pro práci s chybějícími daty.

Nejjednodušší technikou je příkaz na.locf(), který přenáší poslední dostupné pozorování před chybějící hodnotou dopředu (anglicky „last observation carried forward", zkráceně locf). Tento přístup je často nejvhodnějším způsobem, jak řešit chybějící data – zvláště pokud chceš být konzervativní ohledně odhadovaného růstu.

Podobná technika funguje i v opačném směru: bere první dostupné pozorování za chybějící hodnotou a přenáší ho zpět (anglicky „next observation carried backward", zkráceně nocb). I tuto metodu lze použít pomocí na.locf() – stačí nastavit argument fromLast na TRUE.

Která metoda je vhodnější závisí na typu dat a na tom, jaké předpoklady máš o tom, jak se data v čase mění.

Pokyny

100 XP
  • Pomocí na.locf() doplň chybějící hodnoty v gdp_xts metodou přenosu posledního pozorování dopředu. Výsledný xts objekt ulož jako gdp_locf.
  • Dalším voláním na.locf() doplň chybějící hodnoty v gdp_xts metodou přenosu následujícího pozorování zpět. Nastav přitom argument fromLast na TRUE. Výsledný xts objekt ulož jako gdp_nocb.
  • Oba objekty vykresli pomocí plot.xts(). Použij předpřipravený příkaz par(), aby se oba grafy zobrazily vedle sebe.
  • Z každého objektu (gdp_locf a gdp_nocb) získej hodnoty HDP za rok 1993.