Kovarianz vs. Korrelation

Die Kovarianz misst, ob zwei Variablen gemeinsam schwanken ("variieren"). Sie wird berechnet, indem man punktweise die Produkte der Abweichungen aus der vorherigen Übung bildet, dx[n]*dy[n], und anschließend den Mittelwert all dieser Produkte bestimmt.

Die Korrelation ist im Kern die normalisierte Kovarianz. In dieser Übung bekommst du zwei Datenarrays, die stark korreliert sind. Du wirst sowohl die covariance als auch die correlation visualisieren und berechnen.

Diese Übung ist Teil des Kurses

Einführung in lineares Modellieren mit Python

Anleitung zur Übung

Berechne die Abweichungen dx und dy, indem du den Mittelwert mit np.mean() abziehst, und berechne die covariance als Mittelwert ihres Produkts dx*dy.
Berechne die normalisierten Abweichungen zx und zy, indem du durch die Standardabweichung mit np.std() teilst, und berechne die correlation als Mittelwert ihres Produkts zx*zy.
Verwende plot_normalized_deviations(zx, zy), um das Produkt der normalisierten Abweichungen zu plotten und es visuell mit dem Korrelationswert abzugleichen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Compute the covariance from the deviations.
dx = x - np.____(x)
dy = y - np.____(y)
covariance = np.____(____ * ____)
print("Covariance: ", covariance)

# Compute the correlation from the normalized deviations.
zx = dx / np.____(x)
zy = dy / np.____(y)
correlation = np.____(____ * ____)
print("Correlation: ", correlation)

# Plot the normalized deviations for visual inspection. 
fig = plot_normalized_deviations(zx, zy)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Einführung in lineares Modellieren mit Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Wir starten den Kurs mit einer ersten Erkundung linearer Beziehungen, einschließlich motivierender Beispiele dafür, wie lineare Modelle genutzt werden, und mit Demonstrationen von Datenvisualisierungsmethoden aus matplotlib. Anschließend verwenden wir deskriptive Statistik, um die Form unserer Daten zu quantifizieren, und Korrelationen, um die Stärke linearer Beziehungen zwischen zwei Variablen zu messen.

Exercise 1: Einführung in die Datenmodellierung Exercise 2: Gründe für Modellierung: Interpolation Exercise 3: Gründe fürs Modellieren: Extrapolation Exercise 4: Warum modellieren? Beziehungen schätzen Exercise 5: Lineare Beziehungen visualisieren Exercise 6: Daten plotten Exercise 7: Das Modell auf die Daten plotten Exercise 8: Steigung und Achsenabschnitt visuell schätzen Exercise 9: Lineare Beziehungen quantifizieren Exercise 10: Mittelwert, Abweichung & Standardabweichung Exercise 11: Kovarianz vs. Korrelation

Aktuelle Übung

Exercise 12: Stärke der Korrelation

Hier betrachten wir die Bausteine zum Aufbau eines linearen Modells. Ausgehend vom Konzept einer Taylor-Reihe konzentrieren wir uns auf die Parameter Steigung und Achsenabschnitt, darauf, wie sie das Modell bestimmen, und wie man sie in verschiedenen Anwendungszusammenhängen interpretiert. Wir nutzen verschiedene Python-Module, um das Modell zu finden, das am besten zu den Daten passt, indem wir die optimalen Werte für Steigung und Achsenabschnitt mit Hilfe der Methode der kleinsten Quadrate, numpy, statsmodels und scikit-learn berechnen.

Exercise 1: Was ein Modell linear macht Exercise 2: Terme in einem Modell Exercise 3: Modellkomponenten Exercise 4: Modellparameter Exercise 5: Steigung und Achsenabschnitt interpretieren Exercise 6: Lineare Proportionalität Exercise 7: Steigung und Änderungsraten Exercise 8: Achsenabschnitt und Startpunkte Exercise 9: Modelloptimierung Exercise 10: Residual Sum of the Squares Exercise 11: Residuals minimieren Exercise 12: RSS-Minima visualisieren Exercise 13: Optimierung mit kleinsten Quadraten Exercise 14: Kleinste Quadrate mit `numpy`Exercise 15: Optimierung mit SciPy Exercise 16: Kleinste Quadrate mit `statsmodels`

Als Nächstes wenden wir Modelle auf reale Daten an und erstellen Vorhersagen. Wir untersuchen einige der häufigsten Fallstricke und Grenzen von Vorhersagen und bewerten und vergleichen Modelle, indem wir mehrere Gütemaße quantifizieren und gegenüberstellen, darunter RMSE und R-Quadrat.

Exercise 1: Reale Daten modellieren Exercise 2: Lineares Modell in der Anthropologie Exercise 3: Lineares Modell in der Ozeanografie Exercise 4: Lineares Modell in der Kosmologie Exercise 5: Die Grenzen der Vorhersage Exercise 6: Interpolation: Zwischenzeiten Exercise 7: Extrapolation: über den Rand hinausgehen Exercise 8: Güte der Anpassung Exercise 9: RMSE Schritt für Schritt Exercise 10: R-Quadrat Exercise 11: Standardfehler Exercise 12: Variation um den Trend Exercise 13: Variation in zwei Teilen

Im letzten Kapitel führen wir Konzepte aus der schließenden Statistik ein und nutzen sie, um zu untersuchen, wie Maximum-Likelihood-Schätzung und Bootstrap-Resampling zur Schätzung von Parametern linearer Modelle verwendet werden können. Anschließend wenden wir diese Methoden an, um probabilistische Aussagen über unsere Zuversicht in die Modellparameter zu treffen.

Exercise 1: Konzepte der schließenden Statistik Exercise 2: Stichprobenstatistik versus Grundgesamtheit Exercise 3: Variation in Stichprobenstatistiken Exercise 4: Variation einer Kennzahl visualisieren Exercise 5: Modellschätzung und Likelihood Exercise 6: Schätzung von Populationsparametern Exercise 7: Likelihood maximieren, Teil 1 Exercise 8: Likelihood maximieren, Teil 2 Exercise 9: Modellunsicherheit und Stichprobenverteilungen Exercise 10: Bootstrap und Standardfehler Exercise 11: Geschwindigkeit und Konfidenz schätzen Exercise 12: Bootstrap visualisieren Exercise 13: Modellfehler und Zufälligkeit Exercise 14: Teststatistiken und Effektgröße Exercise 15: Nullhypothese Exercise 16: Teststatistiken visualisieren Exercise 17: Das p-Value visualisieren Exercise 18: Kursabschluss