R-Quadrat

Zuvor haben wir ein weiteres Gütemaß, R-Quadrat, als Verhältnis von RSS zu VAR ausgedrückt. Multipliziert man Zähler und Nenner dieses Verhältnisses mit 1/n, erhält man eine numerisch äquivalente Form: das Verhältnis der Varianz der Residuen zur Varianz des linearen Trends in den Daten, die wir modellieren. Das lässt sich so interpretieren, dass es misst, wie viel der Varianz in deinen Daten durch dein Modell „erklärt“ wird – im Gegensatz zur Streuung bzw. Varianz der Residuen (nachdem du den linearen Trend entfernt hast).

Hier haben wir die Daten x_data, y_data und die Modellvorhersagen y_model für das Best-Fit-Modell bereits geladen; dein Ziel ist es, das R-Quadrat zu berechnen, um zu quantifizieren, wie viel dieses lineare Modell von der Variation in den Daten erfasst.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in lineares Modellieren mit Python</Kurs>

Übungsanweisungen

Berechne die residuals, indem du y_data von y_model subtrahierst, und die deviations, indem du y_data vom np.mean() der y_data subtrahierst.
Berechne die Varianz der residuals und die Varianz der deviations, jeweils mit np.mean() und np.square().
Berechne r_squared als 1 minus dem Verhältnis var_residuals / var_deviations und gib das Ergebnis aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Compute the residuals and the deviations
residuals = ____ - y_data
deviations = np.____(____) - y_data

# Compute the variance of the residuals and deviations
var_residuals = np.____(np.____(____))
var_deviations = np.____(np.____(____))

# Compute r_squared as 1 - the ratio of RSS/Variance
r_squared = 1 - (____ / ____)
print('R-squared is {:0.2f}'.format(____))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Einführung in lineares Modellieren mit Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.7+

Kurs kostenlos starten

Wir starten den Kurs mit einer ersten Erkundung linearer Beziehungen, einschließlich motivierender Beispiele dafür, wie lineare Modelle genutzt werden, und mit Demonstrationen von Datenvisualisierungsmethoden aus matplotlib. Anschließend verwenden wir deskriptive Statistik, um die Form unserer Daten zu quantifizieren, und Korrelationen, um die Stärke linearer Beziehungen zwischen zwei Variablen zu messen.

Exercise 1: Einführung in die Datenmodellierung Exercise 2: Gründe für Modellierung: Interpolation Exercise 3: Gründe fürs Modellieren: Extrapolation Exercise 4: Warum modellieren? Beziehungen schätzen Exercise 5: Lineare Beziehungen visualisieren Exercise 6: Daten plotten Exercise 7: Das Modell auf die Daten plotten Exercise 8: Steigung und Achsenabschnitt visuell schätzen Exercise 9: Lineare Beziehungen quantifizieren Exercise 10: Mittelwert, Abweichung & Standardabweichung Exercise 11: Kovarianz vs. Korrelation Exercise 12: Stärke der Korrelation

Hier betrachten wir die Bausteine zum Aufbau eines linearen Modells. Ausgehend vom Konzept einer Taylor-Reihe konzentrieren wir uns auf die Parameter Steigung und Achsenabschnitt, darauf, wie sie das Modell bestimmen, und wie man sie in verschiedenen Anwendungszusammenhängen interpretiert. Wir nutzen verschiedene Python-Module, um das Modell zu finden, das am besten zu den Daten passt, indem wir die optimalen Werte für Steigung und Achsenabschnitt mit Hilfe der Methode der kleinsten Quadrate, numpy, statsmodels und scikit-learn berechnen.

Exercise 1: Was ein Modell linear macht Exercise 2: Terme in einem Modell Exercise 3: Modellkomponenten Exercise 4: Modellparameter Exercise 5: Steigung und Achsenabschnitt interpretieren Exercise 6: Lineare Proportionalität Exercise 7: Steigung und Änderungsraten Exercise 8: Achsenabschnitt und Startpunkte Exercise 9: Modelloptimierung Exercise 10: Residual Sum of the Squares Exercise 11: Residuals minimieren Exercise 12: RSS-Minima visualisieren Exercise 13: Optimierung mit kleinsten Quadraten Exercise 14: Kleinste Quadrate mit `numpy`Exercise 15: Optimierung mit SciPy Exercise 16: Kleinste Quadrate mit `statsmodels`

Als Nächstes wenden wir Modelle auf reale Daten an und erstellen Vorhersagen. Wir untersuchen einige der häufigsten Fallstricke und Grenzen von Vorhersagen und bewerten und vergleichen Modelle, indem wir mehrere Gütemaße quantifizieren und gegenüberstellen, darunter RMSE und R-Quadrat.

Exercise 1: Reale Daten modellieren Exercise 2: Lineares Modell in der Anthropologie Exercise 3: Lineares Modell in der Ozeanografie Exercise 4: Lineares Modell in der Kosmologie Exercise 5: Die Grenzen der Vorhersage Exercise 6: Interpolation: Zwischenzeiten Exercise 7: Extrapolation: über den Rand hinausgehen Exercise 8: Güte der Anpassung Exercise 9: RMSE Schritt für Schritt Exercise 10: R-Quadrat

Aktuelle Übung

Exercise 11: Standardfehler Exercise 12: Variation um den Trend Exercise 13: Variation in zwei Teilen

Im letzten Kapitel führen wir Konzepte aus der schließenden Statistik ein und nutzen sie, um zu untersuchen, wie Maximum-Likelihood-Schätzung und Bootstrap-Resampling zur Schätzung von Parametern linearer Modelle verwendet werden können. Anschließend wenden wir diese Methoden an, um probabilistische Aussagen über unsere Zuversicht in die Modellparameter zu treffen.

Exercise 1: Konzepte der schließenden Statistik Exercise 2: Stichprobenstatistik versus Grundgesamtheit Exercise 3: Variation in Stichprobenstatistiken Exercise 4: Variation einer Kennzahl visualisieren Exercise 5: Modellschätzung und Likelihood Exercise 6: Schätzung von Populationsparametern Exercise 7: Likelihood maximieren, Teil 1 Exercise 8: Likelihood maximieren, Teil 2 Exercise 9: Modellunsicherheit und Stichprobenverteilungen Exercise 10: Bootstrap und Standardfehler Exercise 11: Geschwindigkeit und Konfidenz schätzen Exercise 12: Bootstrap visualisieren Exercise 13: Modellfehler und Zufälligkeit Exercise 14: Teststatistiken und Effektgröße Exercise 15: Nullhypothese Exercise 16: Teststatistiken visualisieren Exercise 17: Das p-Value visualisieren Exercise 18: Kursabschluss