Lineare Regression

Wir nehmen an, dass die Fertilität eine lineare Funktion der weiblichen Analphabetenrate ist. Also gilt: \(f = a i + b\), wobei \(a\) die Steigung und \(b\) der Achsenabschnitt ist. Den Achsenabschnitt können wir als minimale Fertilitätsrate auffassen, wahrscheinlich irgendwo zwischen eins und zwei. Die Steigung zeigt, wie sich die Fertilität mit der Analphabetenrate verändert. Die am besten passende Gerade finden wir mit np.polyfit().

Stelle die Daten und die Best-Fit-Gerade dar. Gib die Steigung und den Achsenabschnitt aus. (Überlege: Welche Einheiten haben sie?)

Diese Übung ist Teil des Kurses

Statistical Thinking in Python (Teil 2)

Anleitung zur Übung

Berechne die Steigung und den Achsenabschnitt der Regressionsgeraden mit np.polyfit(). Denk daran: fertility steht auf der y-Achse und illiteracy auf der x-Achse.
Gib die Steigung und den Achsenabschnitt der linearen Regression aus.
Um die Best-Fit-Gerade zu plotten, erstelle ein Array x, das aus 0 und 100 besteht, mit np.array(). Berechne dann die theoretischen y-Werte anhand deiner Regressionsparameter, also y = a * x + b.
Zeichne die Daten und die Regressionsgerade im selben Plot. Vergiss nicht, die Achsen zu beschriften.
Klicke auf Antwort senden, um deinen Plot anzuzeigen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Plot the illiteracy rate versus fertility
_ = plt.plot(illiteracy, fertility, marker='.', linestyle='none')
plt.margins(0.02)
_ = plt.xlabel('percent illiterate')
_ = plt.ylabel('fertility')

# Perform a linear regression using np.polyfit(): a, b
a, b = ____

# Print the results to the screen
print('slope =', a, 'children per woman / percent illiterate')
print('intercept =', b, 'children per woman')

# Make theoretical line to plot
x = ____
y = ____ * ____ + ____

# Add regression line to your plot
_ = plt.plot(____, ____)

# Draw the plot
plt.show()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Statistical Thinking in Python (Teil 2)

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Bei statistischer Inferenz sprechen wir die Sprache der Wahrscheinlichkeit. Eine Wahrscheinlichkeitsverteilung, die deine Daten beschreibt, hat Parameter. Ein zentrales Ziel der statistischen Inferenz ist daher, die Werte dieser Parameter zu schätzen. So können wir unsere Daten präzise und eindeutig beschreiben und Schlussfolgerungen daraus ziehen. In diesem Kapitel lernst du, wie du die optimalen Parameter findest – diejenigen, die deine Daten am besten beschreiben.

Exercise 1: Optimale Parameter Exercise 2: Wie häufig gibt es No-Hitter?Exercise 3: Folgen die Daten unserer Geschichte?Exercise 4: Warum ist dieser Parameter optimal?Exercise 5: Lineare Regression mit kleinsten Quadraten Exercise 6: EDA zu Alphabetisierung und Fertilität Exercise 7: Lineare Regression

Aktuelle Übung

Exercise 8: Wie ist es optimal?Exercise 9: Die Bedeutung von EDA: Anscombes Quartett Exercise 10: Die Bedeutung von EDA Exercise 11: Lineare Regression auf passenden Anscombe-Daten Exercise 12: Lineare Regression für alle Anscombe-Daten

Sich „an den eigenen Stiefelschlaufen hochziehen“ ist eine Redewendung dafür, eine schwierige Aufgabe ganz ohne Hilfe zu meistern. In der statistischen Inferenz möchtest du wissen, was passieren würde, wenn du die Datenerhebung unendlich oft wiederholen könntest. Das ist unmöglich – aber können wir allein mit den tatsächlich vorliegenden Daten zu einem Ergebnis gelangen, das einer unendlichen Anzahl von Experimenten nahekommt? Die Antwort lautet: Ja! Die Methode dafür heißt treffend Bootstrapping. Dieses Kapitel führt dich in dieses außergewöhnlich mächtige Werkzeug ein.

Exercise 1: Bootstrap-Replikate erzeugen Exercise 2: Die Terminologie klären Exercise 3: Bootstrapping per Hand Exercise 4: Bootstrap-Stichproben visualisieren Exercise 5: Bootstrap-Konfidenzintervalle Exercise 6: Viele Bootstrap-Replikate erzeugen Exercise 7: Bootstrap-Replikate des Mittelwerts und des SEM Exercise 8: Konfidenzintervalle von Niederschlagsdaten Exercise 9: Bootstrap-Replikate anderer Statistiken Exercise 10: Konfidenzintervall für die Rate der No-Hitters Exercise 11: Pairs-Bootstrap Exercise 12: Eine Funktion für Pairs-Bootstrap Exercise 13: Pairs-Bootstrap für Alphabetisierungs-/Fruchtbarkeitsdaten Exercise 14: Bootstrap-Regressionen plotten

Du weißt nun, wie du bei gegebenem Modell Parameter definierst und schätzt. Aber es bleibt die Frage: Wie plausibel ist es, deine Daten zu beobachten, wenn das Modell wahr ist? Diese Frage beantworten Hypothesentests. Sie sind sozusagen die Krönung der Inferenz. Nach diesem Kapitel wirst du in der Lage sein, mithilfe von Hacker-Statistiken Hypothesen sorgfältig zu formulieren und zu testen.

Exercise 1: Eine Hypothese formulieren und simulieren Exercise 2: Eine Permutationsstichprobe erzeugen Exercise 3: Permutationsstichproben visualisieren Exercise 4: Teststatistiken und p-Werte Exercise 5: Teststatistiken Exercise 6: Was ist ein p-Wert?Exercise 7: Permutationsreplikate erzeugen Exercise 8: Erst schauen, dann springen: EDA vor dem Hypothesentest Exercise 9: Permutationstest mit Froschdaten Exercise 10: Bootstrap-Hypothesentests Exercise 11: Ein Bootstrap-Hypothesentest mit einer Stichprobe Exercise 12: Ein zweiseitiger Bootstrap-Hypothesentest für die Differenz der Mittelwerte

Wie du im letzten Kapitel gesehen hast, können Hypothesentests etwas knifflig sein. Du musst die Nullhypothese definieren, herausfinden, wie du sie simulierst, und klar festlegen, was „extremer“ bedeutet, um den p-Wert zu berechnen. Wie bei jeder Fähigkeit gilt: Übung macht den Meister. Dieses Kapitel bietet dir gute Praxis mit Hypothesentests.

Exercise 1: A/B-Tests Exercise 2: Die Abstimmung über den Civil Rights Act von 1964 Exercise 3: Was ist äquivalent?Exercise 4: Ein Analogon zur Verweildauer auf der Website Exercise 5: Was hättest du zuerst tun sollen?Exercise 6: Test auf Korrelation Exercise 7: Eine Nullhypothese zur Korrelation simulieren Exercise 8: Hypothesentest zur Pearson-Korrelation Exercise 9: Haben Neonicotinoid-Insektizide unbeabsichtigte Folgen?Exercise 10: Bootstrap-Hypothesentest zu Spermienzahlen bei Bienen

Seit mehr als 40 Jahren fahren Peter und Rosemary Grant jedes Jahr auf die Galápagos-Insel Daphne Major und sammeln Daten zu Darwins Finken. Mit deinen Fähigkeiten in statistischer Inferenz arbeitest du in diesem Kapitel mit ihren Daten und erlebst aus erster Hand – anhand von Daten – Evolution in Aktion. Ein mitreißender Abschluss für den Kurs!

Exercise 1: Finkenschnäbel und warum wir Statistik brauchen Exercise 2: EDA der Schnabeltiefe bei Darwins Finken Exercise 3: ECDFs der Schnabeltiefe Exercise 4: Parameterschätzungen der Schnabeltiefe Exercise 5: Hypothesentest: Sind die Schnäbel 2012 tiefer?Exercise 6: Variation in Schnabelformen Exercise 7: EDA von Schnabellänge und -tiefe Exercise 8: Lineare Regressionen Exercise 9: Lineare Regressionsresultate anzeigen Exercise 10: Verhältnis von Schnabellänge zu -tiefe Exercise 11: Wie unterschiedlich ist das Verhältnis?Exercise 12: Berechnung der Erblichkeit Exercise 13: EDA zur Heritabilität Exercise 14: Korrelation von Nachkommen- und Elterndaten Exercise 15: Pearson-Korrelation von Nachkommen- und Elterndaten Exercise 16: Erblichkeit messen Exercise 17: Ist die Schnabeltiefe bei G. scandens überhaupt erblich?Exercise 18: Abschlussgedanken