Kleinste Quadrate mit `numpy`

Die folgenden Formeln ergeben sich aus der im Intro besprochenen Analysis. In dieser Übung vertrauen wir darauf, dass die Herleitung korrekt ist, und setzen die Formeln mit numpy im Code um.

$$ a_{1} = \frac{ covariance(x, y) }{ variance(x) } $$ $$ a_{0} = mean(y) - a_{1} mean(x) $$

Diese Übung ist Teil des Kurses

Einführung in lineares Modellieren mit Python

Anleitung zur Übung

Berechne die Mittelwerte und Abweichungen der beiden Variablen x, y aus den vorab geladenen Daten.
Verwende np.sum(), um die Formeln der kleinsten Quadrate zu vervollständigen, und nutze sie, um die optimalen Werte für a0 und a1 zu berechnen.
Verwende model(), um aus diesen optimalen Werten für Steigung a1 und Achsenabschnitt a0 die Modellwerte y_model zu erzeugen.
Nutze die vordefinierte Funktion compute_rss_and_plot_fit(), um visuell zu prüfen, dass dieses optimale Modell die Daten gut beschreibt.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# prepare the means and deviations of the two variables
x_mean = np.____(x)
y_mean = np.____(y)
x_dev = x - ____
y_dev = y - ____

# Complete least-squares formulae to find the optimal a0, a1
a1 = np.sum(____ * ____) / np.sum( np.square(____) )
a0 = ____ - (a1 * ____)

# Use the those optimal model parameters a0, a1 to build a model
y_model = model(x, ____, ____)

# plot to verify that the resulting y_model best fits the data y
fig, rss = compute_rss_and_plot_fit(a0, a1)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Einführung in lineares Modellieren mit Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Wir starten den Kurs mit einer ersten Erkundung linearer Beziehungen, einschließlich motivierender Beispiele dafür, wie lineare Modelle genutzt werden, und mit Demonstrationen von Datenvisualisierungsmethoden aus matplotlib. Anschließend verwenden wir deskriptive Statistik, um die Form unserer Daten zu quantifizieren, und Korrelationen, um die Stärke linearer Beziehungen zwischen zwei Variablen zu messen.

Exercise 1: Einführung in die Datenmodellierung Exercise 2: Gründe für Modellierung: Interpolation Exercise 3: Gründe fürs Modellieren: Extrapolation Exercise 4: Warum modellieren? Beziehungen schätzen Exercise 5: Lineare Beziehungen visualisieren Exercise 6: Daten plotten Exercise 7: Das Modell auf die Daten plotten Exercise 8: Steigung und Achsenabschnitt visuell schätzen Exercise 9: Lineare Beziehungen quantifizieren Exercise 10: Mittelwert, Abweichung & Standardabweichung Exercise 11: Kovarianz vs. Korrelation Exercise 12: Stärke der Korrelation

Hier betrachten wir die Bausteine zum Aufbau eines linearen Modells. Ausgehend vom Konzept einer Taylor-Reihe konzentrieren wir uns auf die Parameter Steigung und Achsenabschnitt, darauf, wie sie das Modell bestimmen, und wie man sie in verschiedenen Anwendungszusammenhängen interpretiert. Wir nutzen verschiedene Python-Module, um das Modell zu finden, das am besten zu den Daten passt, indem wir die optimalen Werte für Steigung und Achsenabschnitt mit Hilfe der Methode der kleinsten Quadrate, numpy, statsmodels und scikit-learn berechnen.

Exercise 1: Was ein Modell linear macht Exercise 2: Terme in einem Modell Exercise 3: Modellkomponenten Exercise 4: Modellparameter Exercise 5: Steigung und Achsenabschnitt interpretieren Exercise 6: Lineare Proportionalität Exercise 7: Steigung und Änderungsraten Exercise 8: Achsenabschnitt und Startpunkte Exercise 9: Modelloptimierung Exercise 10: Residual Sum of the Squares Exercise 11: Residuals minimieren Exercise 12: RSS-Minima visualisieren Exercise 13: Optimierung mit kleinsten Quadraten Exercise 14: Kleinste Quadrate mit `numpy`

Aktuelle Übung

Exercise 15: Optimierung mit SciPy Exercise 16: Kleinste Quadrate mit `statsmodels`

Als Nächstes wenden wir Modelle auf reale Daten an und erstellen Vorhersagen. Wir untersuchen einige der häufigsten Fallstricke und Grenzen von Vorhersagen und bewerten und vergleichen Modelle, indem wir mehrere Gütemaße quantifizieren und gegenüberstellen, darunter RMSE und R-Quadrat.

Exercise 1: Reale Daten modellieren Exercise 2: Lineares Modell in der Anthropologie Exercise 3: Lineares Modell in der Ozeanografie Exercise 4: Lineares Modell in der Kosmologie Exercise 5: Die Grenzen der Vorhersage Exercise 6: Interpolation: Zwischenzeiten Exercise 7: Extrapolation: über den Rand hinausgehen Exercise 8: Güte der Anpassung Exercise 9: RMSE Schritt für Schritt Exercise 10: R-Quadrat Exercise 11: Standardfehler Exercise 12: Variation um den Trend Exercise 13: Variation in zwei Teilen

Im letzten Kapitel führen wir Konzepte aus der schließenden Statistik ein und nutzen sie, um zu untersuchen, wie Maximum-Likelihood-Schätzung und Bootstrap-Resampling zur Schätzung von Parametern linearer Modelle verwendet werden können. Anschließend wenden wir diese Methoden an, um probabilistische Aussagen über unsere Zuversicht in die Modellparameter zu treffen.

Exercise 1: Konzepte der schließenden Statistik Exercise 2: Stichprobenstatistik versus Grundgesamtheit Exercise 3: Variation in Stichprobenstatistiken Exercise 4: Variation einer Kennzahl visualisieren Exercise 5: Modellschätzung und Likelihood Exercise 6: Schätzung von Populationsparametern Exercise 7: Likelihood maximieren, Teil 1 Exercise 8: Likelihood maximieren, Teil 2 Exercise 9: Modellunsicherheit und Stichprobenverteilungen Exercise 10: Bootstrap und Standardfehler Exercise 11: Geschwindigkeit und Konfidenz schätzen Exercise 12: Bootstrap visualisieren Exercise 13: Modellfehler und Zufälligkeit Exercise 14: Teststatistiken und Effektgröße Exercise 15: Nullhypothese Exercise 16: Teststatistiken visualisieren Exercise 17: Das p-Value visualisieren Exercise 18: Kursabschluss