Variation in zwei Teilen

Gegeben sind zwei Datensätze mit Distanz-gegen-Zeit-Daten: einer mit sehr kleiner Geschwindigkeit und einer mit großer Geschwindigkeit. Beachte, dass beide denselben Standardfehler der Steigung haben können, aber je nach Größe der Steigung ("Effektgröße") im Vergleich zum Standardfehler ("Unsicherheit") ein unterschiedliches R-Quadrat für das Gesamtmodell.

Wenn wir beide Datensätze als Streudiagramme in denselben Achsen darstellen, wird der Kontrast deutlich. Variation durch die Steigung unterscheidet sich von der Variation durch das zufällige Streuen um die Trendlinie. In dieser Übung sollst du den Standardfehler und das R-Quadrat für zwei Datensätze berechnen und vergleichen.

Diese Übung ist Teil des Kurses

Einführung in lineares Modellieren mit Python

Anleitung zur Übung

Baue und fit() ein ols()-Modell für beide Datensätze distances1 und distances2.
Verwende die .bse der resultierenden Modelle model_1 und model_2 sowie den Schlüssel 'times', um die Standardfehler der Steigung aus jedem Modell zu extrahieren.
Verwende das Attribut .rsquared, um den R-Quadrat-Wert aus jedem Modell zu extrahieren.
Gib die resultierenden se_1, rsquared_1, se_2, rsquared_2 aus und vergleiche sie visuell.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Build and fit two models, for columns distances1 and distances2 in df
model_1 = ols(formula="____ ~ times", data=df).____()
model_2 = ols(formula="____ ~ times", data=df).____()

# Extract R-squared for each model, and the standard error for each slope
se_1 = model_1.____['times']
se_2 = model_2.____['times']
rsquared_1 = model_1.____
rsquared_2 = model_2.____

# Print the results
print('Model 1: SE = {:0.3f}, R-squared = {:0.3f}'.format(____, ____))
print('Model 2: SE = {:0.3f}, R-squared = {:0.3f}'.format(____, ____))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Einführung in lineares Modellieren mit Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Wir starten den Kurs mit einer ersten Erkundung linearer Beziehungen, einschließlich motivierender Beispiele dafür, wie lineare Modelle genutzt werden, und mit Demonstrationen von Datenvisualisierungsmethoden aus matplotlib. Anschließend verwenden wir deskriptive Statistik, um die Form unserer Daten zu quantifizieren, und Korrelationen, um die Stärke linearer Beziehungen zwischen zwei Variablen zu messen.

Exercise 1: Einführung in die Datenmodellierung Exercise 2: Gründe für Modellierung: Interpolation Exercise 3: Gründe fürs Modellieren: Extrapolation Exercise 4: Warum modellieren? Beziehungen schätzen Exercise 5: Lineare Beziehungen visualisieren Exercise 6: Daten plotten Exercise 7: Das Modell auf die Daten plotten Exercise 8: Steigung und Achsenabschnitt visuell schätzen Exercise 9: Lineare Beziehungen quantifizieren Exercise 10: Mittelwert, Abweichung & Standardabweichung Exercise 11: Kovarianz vs. Korrelation Exercise 12: Stärke der Korrelation

Hier betrachten wir die Bausteine zum Aufbau eines linearen Modells. Ausgehend vom Konzept einer Taylor-Reihe konzentrieren wir uns auf die Parameter Steigung und Achsenabschnitt, darauf, wie sie das Modell bestimmen, und wie man sie in verschiedenen Anwendungszusammenhängen interpretiert. Wir nutzen verschiedene Python-Module, um das Modell zu finden, das am besten zu den Daten passt, indem wir die optimalen Werte für Steigung und Achsenabschnitt mit Hilfe der Methode der kleinsten Quadrate, numpy, statsmodels und scikit-learn berechnen.

Exercise 1: Was ein Modell linear macht Exercise 2: Terme in einem Modell Exercise 3: Modellkomponenten Exercise 4: Modellparameter Exercise 5: Steigung und Achsenabschnitt interpretieren Exercise 6: Lineare Proportionalität Exercise 7: Steigung und Änderungsraten Exercise 8: Achsenabschnitt und Startpunkte Exercise 9: Modelloptimierung Exercise 10: Residual Sum of the Squares Exercise 11: Residuals minimieren Exercise 12: RSS-Minima visualisieren Exercise 13: Optimierung mit kleinsten Quadraten Exercise 14: Kleinste Quadrate mit `numpy`Exercise 15: Optimierung mit SciPy Exercise 16: Kleinste Quadrate mit `statsmodels`

Als Nächstes wenden wir Modelle auf reale Daten an und erstellen Vorhersagen. Wir untersuchen einige der häufigsten Fallstricke und Grenzen von Vorhersagen und bewerten und vergleichen Modelle, indem wir mehrere Gütemaße quantifizieren und gegenüberstellen, darunter RMSE und R-Quadrat.

Exercise 1: Reale Daten modellieren Exercise 2: Lineares Modell in der Anthropologie Exercise 3: Lineares Modell in der Ozeanografie Exercise 4: Lineares Modell in der Kosmologie Exercise 5: Die Grenzen der Vorhersage Exercise 6: Interpolation: Zwischenzeiten Exercise 7: Extrapolation: über den Rand hinausgehen Exercise 8: Güte der Anpassung Exercise 9: RMSE Schritt für Schritt Exercise 10: R-Quadrat Exercise 11: Standardfehler Exercise 12: Variation um den Trend Exercise 13: Variation in zwei Teilen

Aktuelle Übung

Im letzten Kapitel führen wir Konzepte aus der schließenden Statistik ein und nutzen sie, um zu untersuchen, wie Maximum-Likelihood-Schätzung und Bootstrap-Resampling zur Schätzung von Parametern linearer Modelle verwendet werden können. Anschließend wenden wir diese Methoden an, um probabilistische Aussagen über unsere Zuversicht in die Modellparameter zu treffen.

Exercise 1: Konzepte der schließenden Statistik Exercise 2: Stichprobenstatistik versus Grundgesamtheit Exercise 3: Variation in Stichprobenstatistiken Exercise 4: Variation einer Kennzahl visualisieren Exercise 5: Modellschätzung und Likelihood Exercise 6: Schätzung von Populationsparametern Exercise 7: Likelihood maximieren, Teil 1 Exercise 8: Likelihood maximieren, Teil 2 Exercise 9: Modellunsicherheit und Stichprobenverteilungen Exercise 10: Bootstrap und Standardfehler Exercise 11: Geschwindigkeit und Konfidenz schätzen Exercise 12: Bootstrap visualisieren Exercise 13: Modellfehler und Zufälligkeit Exercise 14: Teststatistiken und Effektgröße Exercise 15: Nullhypothese Exercise 16: Teststatistiken visualisieren Exercise 17: Das p-Value visualisieren Exercise 18: Kursabschluss