Odhad rychlosti a intervalu spolehlivosti

Pokračujeme v práci s daty o túrách v národním parku. Všimni si, že některé vzdálenosti jsou záporné – to znamená, že turisté šli opačným směrem od výchozího bodu trasy. Data jsou trochu neuspořádaná, takže se zaměříme jen na celkový trend.

Cílem tohoto cvičení je využít bootstrap resampling k nalezení rozdělení hodnot rychlosti pro lineární model a z tohoto rozdělení pak vypočítat nejlepší odhad rychlosti a 90% interval spolehlivosti. Rychlost zde představuje parametr směrnice z modelu lineární regrese, který proložíme vzdáleností jako funkcí času.

Abys měl/a dobrý start, máš předem načtená data distance a time společně s předpřipravenou funkcí least_squares(), která vypočítá hodnotu rychlosti pro každý resample.

Pomocí np.random.choice() vyber sample_inds z population_inds tak, aby zůstalo zachováno párování vzdálenosti a času pro každý datový bod.
Aby bylo zachováno časové pořadí, seřaď sample_inds metodou .sort() a pak je použij jako index pro distances a times.
Pomocí least_squares(times, distances) vypočítej parametry lineárního modelu a ulož a1 do resample_speeds.
Aplikuj np.mean() a np.percentiles() na resample_speeds, vypočítej rychlost a interval spolehlivosti ci_90 a oba výsledky vypiš.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení