Bootstrapping bei Regressionen

Schauen wir uns nun an, wie Bootstrapping bei Regressionen funktioniert. Bootstrapping hilft, die Unsicherheit nicht standardmäßiger Schätzer zu bestimmen. Betrachte die mit einer Regression verbundene \(R^{2}\)-Kennzahl. Wenn du eine einfache Methode der kleinsten Quadrate rechnest, erhältst du einen Wert für \(R^{2}\). Aber wie bekommen wir ein 95-%-KI für \(R^2\)?

Untersuche das DataFrame df mit der abhängigen Variable \(y\) und zwei unabhängigen Variablen \(X1\) und \(X2\) mit df.head(). Wir haben diese Regression bereits mit statsmodels (sm) angepasst, und zwar mit:

reg_fit = sm.OLS(df['y'], df.iloc[:,1:]).fit()

Untersuche das Ergebnis mit reg_fit.summary() und stelle fest, dass \(R^{2}=0{,}3504\) ist. Verwende Bootstrapping, um das 95-%-KI zu berechnen.

Diese Übung ist Teil des Kurses

Statistische Simulation in Python

Anleitung zur Übung

Ziehe eine Bootstrap-Stichprobe aus dem ursprünglichen Datensatz mit der Methode sample() eines pandas DataFrame. Die Zeilenanzahl soll der des ursprünglichen DataFrame entsprechen.
Passe eine Regression analog zu reg_fit() mit sm.OLS() an und extrahiere die \(R^{2}\)-Kennzahl über das Attribut rsquared.
Hänge das \(R^{2}\) an die Liste rsquared_boot an.
Berechne das 95-%-KI für rsquared_boot als r_sq_95_ci mit np.percentile().

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

rsquared_boot, coefs_boot, sims = [], [], 1000
reg_fit = sm.OLS(df['y'], df.iloc[:,1:]).fit()

# Run 1K iterations
for i in range(sims):
    # First create a bootstrap sample with replacement with n=df.shape[0]
    bootstrap = ____
    # Fit the regression and append the r square to rsquared_boot
    rsquared_boot.append(____(bootstrap['y'],bootstrap.iloc[:,1:]).fit().rsquared)

# Calculate 95% CI on rsquared_boot
r_sq_95_ci = ____
print("R Squared 95% CI = {}".format(r_sq_95_ci))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Statistische Simulation in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Dieses Kapitel gibt dir die Werkzeuge an die Hand, um eine Simulation durchzuführen. Wir starten mit einem Überblick über Zufallsvariablen und Wahrscheinlichkeitsverteilungen. Anschließend lernst du, wie man eine Simulation ausführt: Wir schauen uns zuerst einen typischen Ablauf an und setzen ihn dann im Kontext eines Würfelspiels um. Zum Schluss sehen wir, wie du Simulationen für Entscheidungen einsetzen kannst.

Exercise 1: Einführung in Zufallsvariablen Exercise 2: np.random.choice()Exercise 3: Poisson-Zufallsvariable Exercise 4: Ein Kartendeck mischen Exercise 5: Grundlagen der Simulation Exercise 6: Einen fairen Würfel werfen Exercise 7: Zwei faire Würfel werfen Exercise 8: Das Würfelspiel simulieren Exercise 9: Simulation für Entscheidungen nutzen Exercise 10: Eine einzelne Lotterieziehung simulieren Exercise 11: Sollten wir kaufen?Exercise 12: Einen Break-even-Lotteriepreis berechnen

Dieses Kapitel führt dich in grundlegende Wahrscheinlichkeitskonzepte ein und vermittelt dir ein praktisches Verständnis des Datenentstehungsprozesses. Wir betrachten mehrere Beispiele zur Modellierung dieses Prozesses und schließen mit der Modellierung einer eCommerce-Werbesimulation ab.

Exercise 1: Wahrscheinlichkeitsgrundlagen Exercise 2: Dame und Pik Exercise 3: Paar (Two of a kind)Exercise 4: Game of Thirteen Exercise 5: Weitere Wahrscheinlichkeitskonzepte Exercise 6: Die bedingte Urne Exercise 7: Geburtstagsproblem Exercise 8: Full House Exercise 9: Datengenerierungsprozess Exercise 10: Fahrprüfung Exercise 11: Nationale Wahlen Exercise 12: Fitnessziele Exercise 13: eCommerce-Anzeigen-Simulation Exercise 14: Sign-up-Flow Exercise 15: Kauf-Flow Exercise 16: Wahrscheinlichkeit, Geld zu verlieren

In diesem Kapitel bekommst du eine kurze Einführung in Resampling-Methoden und ihre Anwendungen. Du lernst Bootstrap-Resampling, Jackknife-Resampling und Permutationstests kennen. Nach Abschluss dieses Kapitels kannst du einfache Resampling-Methoden für die Datenanalyse anwenden.

Exercise 1: Einführung in Resampling-Methoden Exercise 2: Ziehen mit Zurücklegen Exercise 3: Wahrscheinlichkeitsbeispiel Exercise 4: Bootstrapping Exercise 5: Einen einfachen Bootstrap durchführen Exercise 6: Nichtstandard-Schätzer Exercise 7: Bootstrapping bei Regressionen

Aktuelle Übung

Exercise 8: Jackknife-Resampling Exercise 9: Einfache Jackknife-Schätzung – Mittelwert Exercise 10: Jackknife-Konfidenzintervall für den Median Exercise 11: Permutationstests Exercise 12: Eine einzelne Permutation erzeugen Exercise 13: Hypothesentest – Differenz der Mittelwerte Exercise 14: Hypothesis Testing – Nicht standardisierte Statistiken

In diesem Kapitel lernst du grundlegende und fortgeschrittene Anwendungen von Simulationen kennen, um reale Probleme zu lösen. Wir bearbeiten ein Problem aus der Geschäftsplanung, lernen die Monte-Carlo-Integration kennen, führen Power-Analysen mit Simulation durch und schließen mit einer Simulation eines Finanzportfolios ab. Nach Abschluss dieses Kapitels bist du bereit, Simulationen zur Lösung alltäglicher Probleme einzusetzen.

Exercise 1: Simulation für die Geschäftsplanung Exercise 2: Modellierung der Maisproduktion Exercise 3: Gewinne modellieren Exercise 4: Kosten optimieren Exercise 5: Monte-Carlo-Integration Exercise 6: Eine einfache Funktion integrieren Exercise 7: Den Wert von pi berechnen Exercise 8: Simulation für Power-Analyse Exercise 9: Faktoren, die die statistische Power beeinflussen Exercise 10: Power-Analyse – Teil I Exercise 11: Power-Analyse – Teil II Exercise 12: Anwendungen in der Finanzwelt Exercise 13: Portfoliosimulation – Teil I Exercise 14: Portfoliosimulation – Teil II Exercise 15: Portfolio-Simulation – Teil III Exercise 16: Abschluss