Verteilung der Fehler
Kaum ein realer Prozess lässt sich perfekt vorhersagen. Wünschenswert ist, dass die Fehler normalverteilt sind. Das bedeutet, dass einige tatsächliche Werte über deiner Vorhersage liegen und andere darunter. Die Fehler (also die Differenz zwischen tatsächlichen Werten und Vorhersagen) „schweben“ dann zufällig um null.
In dieser Übung analysierst du die Ergebnisse eines vorgefertigten linearen Modells, das das Gehalt von Polizistinnen und Polizisten vorhersagt. Anschließend betrachtest du die Fehler und prüfst, ob sie näherungsweise normalverteilt sind. Die Vorhersagen sind als Liste in preds gespeichert, die tatsächlichen Gehälter als Liste in salaries.
Diese Übung ist Teil des Kurses
Grundlagen der Inferenz in Python
Anleitung zur Übung
- Berechne den Fehler als tatsächliche Gehälter minus vorhergesagte Gehälter.
- Stelle die Fehler in einem Histogramm dar.
- Führe einen Anderson-Darling-Test auf Normalverteilung für die Fehler durch.
- Finde und gib die
significance_level(s) aus, bei denen die Nullhypothese zurückgewiesen würde.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Compute the error as actual minus predicted salary
error = ____
# Plot the errors as a histogram
plt.____(____)
plt.show()
# Conduct an Anderson-Darling test using the years of experience
result = ____(____)
# Find where the result is significant
print(result.____[result.____ > result.____])