1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Analýza časových řad v R

Connected

cvičení

Chybějící hodnoty

V datech časových řad se někdy vyskytují chybějící hodnoty, v R označované jako NA. Hodí se vědět, kde se nacházejí, a také jak s nimi různé R funkce pracují. Někdy chybějící hodnoty jednoduše ignorujeme, jindy je chceme imputovat – tedy odhadnout a doplnit.

Podívejme se znovu na měsíční dataset AirPassengers, tentokrát s tím, že data za rok 1956 chybí. V tomto cvičení prozkoumáš, jaký vliv tato chybějící data mají, a zkusíš je imputovat.

Funkce mean() vypočítá výběrový průměr, ale selže, pokud data obsahují hodnoty NA. Pro výpočet průměru bez chybějících hodnot použij mean(___, na.rm = TRUE). Chybějící hodnoty se běžně nahrazují průměrem dostupných pozorování. Myslíš, že tato jednoduchá metoda imputace dává smysl pro dataset AirPassengers?

Pokyny

100 XP
  • Pomocí plot() zobraz jednoduchý graf datasetu AirPassengers. Všimni si chybějících dat za rok 1956.
  • Pomocí mean() vypočítej výběrový průměr datasetu AirPassengers bez chybějících hodnot (na.rm = TRUE).
  • Spusť předpřipravený kód, který doplní průměrné hodnoty na místa chybějících dat.
  • Zavolej plot() znovu a zobraz aktualizovaný dataset AirPassengers s imputovanými hodnotami.
  • Spusť předpřipravený kód, který do grafu přidá kompletní data AirPassengers.