Bootstrapping w regresji

Sprawdźmy teraz, jak bootstrapping sprawdza się w kontekście regresji. Ta metoda pozwala oszacować niepewność estymatorów, które nie mają standardowych wzorów analitycznych. Rozważmy statystykę \(R^{2}\) dla regresji. Zwykła regresja metodą najmniejszych kwadratów daje jedną wartość \(R^{2}\) – ale jak wyznaczyć dla niej 95% przedział ufności?

Zbadaj ramkę danych df ze zmienną zależną \(y\) i dwiema zmiennymi niezależnymi \(X1\) i \(X2\), używając df.head(). Dopasowanie regresji za pomocą statsmodels (sm) zostało już wykonane:

reg_fit = sm.OLS(df['y'], df.iloc[:,1:]).fit()

Przejrzyj wyniki za pomocą reg_fit.summary() – zobaczysz, że \(R^{2}=0.3504\). Użyj bootstrappingu, aby wyznaczyć 95% przedział ufności dla \(R^2\).

Wylosuj próbkę bootstrapową z oryginalnego zbioru danych, korzystając z metody sample() na ramce danych pandas. Liczba wierszy powinna być taka sama jak w oryginalnej ramce danych.
Dopasuj regresję analogiczną do reg_fit za pomocą sm.OLS() i wyciągnij statystykę \(R^{2}\), używając parametru rsquared.
Dołącz wartość \(R^{2}\) do listy rsquared_boot.
Oblicz 95% przedział ufności dla rsquared_boot jako r_sq_95_ci, korzystając z np.percentile().

ćwiczenie

Bootstrapping w regresji

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie