CommencerCommencer gratuitement

Distribution des erreurs

Presque aucun processus réel ne peut être prédit parfaitement. Un résultat souhaitable est que l'erreur soit distribuée normalement. Cela signifie que certaines valeurs réelles seront au-dessus de votre prédiction, et d'autres en dessous. Autrement dit, les erreurs (c’est-à-dire la différence entre les valeurs réelles et les prédictions) auront tendance à « flotter » aléatoirement autour de zéro.

Dans cet exercice, vous allez analyser les résultats d’un modèle linéaire préconfiguré qui prédit le salaire d’un·e agent·e de police. Vous examinerez ensuite l’erreur et vérifierez si elle est approximativement distribuée normalement. Les prédictions sont une liste de valeurs stockées dans preds, et les salaires réels sont une liste de valeurs stockées dans salaries.

Cet exercice fait partie du cours

Fondements de l’inférence en Python

Afficher le cours

Instructions

  • Calculez l’erreur comme les salaires réels moins les salaires prédits.
  • Tracez les erreurs dans un histogramme.
  • Réalisez un test de normalité d’Anderson-Darling sur les erreurs.
  • Trouvez et affichez le(s) significance_level auquel/auxquels l’hypothèse nulle serait rejetée.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Compute the error as actual minus predicted salary
error = ____

# Plot the errors as a histogram
plt.____(____)
plt.show()

# Conduct an Anderson-Darling test using the years of experience
result = ____(____)

# Find where the result is significant
print(result.____[result.____ > result.____])
Modifier et exécuter le code