Distribution des erreurs

Presque aucun processus réel ne peut être prédit parfaitement. Un résultat souhaitable est que l'erreur soit distribuée normalement. Cela signifie que certaines valeurs réelles seront au-dessus de votre prédiction, et d'autres en dessous. Autrement dit, les erreurs (c’est-à-dire la différence entre les valeurs réelles et les prédictions) auront tendance à « flotter » aléatoirement autour de zéro.

Dans cet exercice, vous allez analyser les résultats d’un modèle linéaire préconfiguré qui prédit le salaire d’un·e agent·e de police. Vous examinerez ensuite l’erreur et vérifierez si elle est approximativement distribuée normalement. Les prédictions sont une liste de valeurs stockées dans preds, et les salaires réels sont une liste de valeurs stockées dans salaries.

Cet exercice fait partie du cours

<cours>Fondements de l’inférence en Python</cours>

Instructions de l’exercice

Calculez l’erreur comme les salaires réels moins les salaires prédits.
Tracez les erreurs dans un histogramme.
Réalisez un test de normalité d’Anderson-Darling sur les erreurs.
Trouvez et affichez le(s) significance_level auquel/auxquels l’hypothèse nulle serait rejetée.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Compute the error as actual minus predicted salary
error = ____

# Plot the errors as a histogram
plt.____(____)
plt.show()

# Conduct an Anderson-Darling test using the years of experience
result = ____(____)

# Find where the result is significant
print(result.____[result.____ > result.____])

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Fondements de l’inférence en Python</cours>

AvancéNiveau de compétence

4.9+

Commencer le cours gratuitement

In this chapter, we'll explore the relationship between samples and statistically justifiable conclusions. Choosing a sample is the basis of making sound statistical decisions, and we’ll explore how the choice of a sample affects the outcome of your inference.

Exercise 1: Statistical inference and random sampling Exercise 2: Sampling and point estimates Exercise 3: Repeated sampling, point estimates and inference Exercise 4: Sampling and bias Exercise 5: Visualizing samples Exercise 6: Inference and bias Exercise 7: Confidence intervals and sampling Exercise 8: Normal sampling distributions Exercise 9: Calculating confidence intervals Exercise 10: Drawing conclusions from samples

Learn all about applying normality tests, correlation tests, and parametric and non-parametric tests for sound inference. Hypothesis tests are tools, and choosing the right tool for the job is critical for statistical decision-making. While you may be familiar with some of these tests in introductory courses, you'll go deeper to enhance your inferential toolkit in this chapter.

Exercise 1: Tests de normalité Exercise 2: Tester la normalité Exercise 3: Distribution des erreurs

Exercice actuel

Exercise 4: Ajuster une loi normale Exercise 5: Tests de corrélation Exercise 6: Tester la corrélation Exercise 7: Autocorrélation Exercise 8: Variance expliquée Exercise 9: Tests paramétriques Exercise 10: Variance égale Exercise 11: Normalité des groupes Exercise 12: ANOVA Exercise 13: Tests non paramétriques Exercise 14: Comparer des classements Exercise 15: Comparer des médianes

In this chapter, you'll measure and interpret effect size in various situations, encounter the multiple comparisons problem, and explore the power of a test in depth. While p-values tell you if a significant effect is present, they don't tell you how strong that effect is. Effect size measures how strong an effect a treatment has. Master the factors underpinning effect size in this chapter.

Exercise 1: Effect size Exercise 2: Effect size for means Exercise 3: Effect size for correlations Exercise 4: Effect size for categorical variables Exercise 5: Multiple comparisons and corrections Exercise 6: Multiple comparisons problem Exercise 7: Bonferonni-Holm correction Exercise 8: Power of a test Exercise 9: What is power anyway?Exercise 10: Power for experimental design Exercise 11: Computing power and sample sizes

You’ll expand your inferential statistics toolkit further with a look at bootstrapping, permutation tests, and methods of combining evidence from p-values. Bootstrapping will provide you with a first look at statistical simulation. In the lesson meta-analysis, you’ll learn all about combining results from multiple studies. You’ll end with a look at permutation tests, a powerful and flexible non-parametric statistical tool.

Exercise 1: Bootstrapping Exercise 2: Bootstrap confidence intervals Exercise 3: Bootstrapping vs. normality Exercise 4: Combining evidence from p-values Exercise 5: Fisher's method in SciPy Exercise 6: Inference using Fisher's method Exercise 7: Summarizing Fisher's method Exercise 8: Permutation tests Exercise 9: Permutation tests for correlations Exercise 10: Permutation tests and bootstrapping Exercise 11: Analyzing skewed data with a permutation test Exercise 12: Course wrap-up video