Aan de slagGa gratis aan de slag

Verdeling van fouten

Bijna geen enkel proces in de echte wereld is perfect te voorspellen. Een wenselijke uitkomst is dat de fout normaal verdeeld is. Dat betekent dat sommige werkelijke waarden boven je voorspelling liggen en andere eronder. Met andere woorden: de fouten (dus het verschil tussen de werkelijke waarden en de voorspellingen) lijken willekeurig rond nul te "zweven".

In deze oefening analyseer je de resultaten van een vooraf gebouwd lineair model dat het salaris van een politieagent voorspelt. Vervolgens bekijk je de fout en controleer je of die ongeveer normaal verdeeld is. De voorspellingen staan als lijst in preds, en de werkelijke salarissen staan als lijst in salaries.

Deze oefening maakt deel uit van de cursus

Basis van inferentie in Python

Cursus bekijken

Oefeninstructies

  • Bereken de fout als de werkelijke salarissen min de voorspelde salarissen.
  • Plot de fouten in een histogram.
  • Voer een Anderson–Darling-toets op normaliteit uit voor de fouten.
  • Zoek en print de significance_level(s) waarbij de nulhypothese zou worden verworpen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Compute the error as actual minus predicted salary
error = ____

# Plot the errors as a histogram
plt.____(____)
plt.show()

# Conduct an Anderson-Darling test using the years of experience
result = ____(____)

# Find where the result is significant
print(result.____[result.____ > result.____])
Code bewerken en uitvoeren