Problème des comparaisons multiples

Le problème des comparaisons multiples survient lorsqu’un·e chercheur·se teste à répétition différentes variables/échantillons les uns contre les autres pour en vérifier la significativité. Par simple hasard, on s’attend à trouver occasionnellement un résultat statistiquement significatif.

Dans cet exercice, vous allez travailler sur des données de salaires des employé·e·s de la ville d’Austin (Texas). Vous comparerez leurs salaires à des données générées aléatoirement. Vous verrez à quelle fréquence ces données aléatoires sont « significatives » pour expliquer les salaires des employé·e·s. Une telle « significativité » serait évidemment fallacieuse, car des nombres aléatoires n’aident pas vraiment à expliquer quoi que ce soit !

Un DataFrame des salaires des agents de police (police_salaries_df) a été chargé pour vous, de même que les packages pandas sous pd, NumPy sous np, Matplotlib sous plt, et stats depuis SciPy.

Cet exercice fait partie du cours

<cours>Fondements de l’inférence en Python</cours>

Instructions de l’exercice

Stockez le nombre de personnes dans l’ensemble de données dans n_rows (chaque ligne correspond à une personne), et initialisez le nombre de résultats significatifs, n_significant, à zéro.
Écrivez une boucle for qui s’exécute 1000 fois et génère n_rows nombres aléatoires.
Calculez le R de Pearson et la p-valeur associée entre ces nombres générés aléatoirement et les salaires des policiers.
Si la p-valeur est significative à 5 %, ajoutez 1 à n_significant avec l’opérateur +=.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Compute number of rows and initialize n_significant
n_rows = ____
n_significant = ____

# For loop which generates n_rows random numbers 1000 times
for i in ____:
  random_nums = np.random.uniform(size=____)
  # Compute correlation between random_nums and police salaries
  r, p_value = stats.____(____, random_nums)
  # If the p-value is significant at 5%, increment n_significant
  if ____ < ____:
    ____ += 1
    
print(n_significant)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Fondements de l’inférence en Python</cours>

AvancéNiveau de compétence

4.9+

Commencer le cours gratuitement

Dans ce chapitre, nous explorerons la relation entre les échantillons et les conclusions statistiquement justifiables. Le choix d’un échantillon est la base d’une prise de décision statistique solide, et nous verrons comment ce choix influence le résultat de votre inférence.

Exercise 1: Inférence statistique et échantillonnage aléatoire Exercise 2: Échantillonnage et estimations ponctuelles Exercise 3: Échantillonnage répété, estimations ponctuelles et inférence Exercise 4: Échantillonnage et biais Exercise 5: Visualiser des échantillons Exercise 6: Inférence et biais Exercise 7: Intervalles de confiance et échantillonnage Exercise 8: Distributions d’échantillonnage normales Exercise 9: Calcul des intervalles de confiance Exercise 10: Tirer des conclusions à partir d’échantillons

Apprenez à appliquer des tests de normalité, des tests de corrélation, ainsi que des tests paramétriques et non paramétriques pour une inférence fiable. Les tests d’hypothèse sont des outils, et choisir le bon outil pour la situation est essentiel à la décision statistique. Même si vous connaissez certains de ces tests grâce à des cours d’introduction, vous irez plus loin ici pour enrichir votre boîte à outils inférentielle.

Exercise 1: Tests de normalité Exercise 2: Tester la normalité Exercise 3: Distribution des erreurs Exercise 4: Ajuster une loi normale Exercise 5: Tests de corrélation Exercise 6: Tester la corrélation Exercise 7: Autocorrélation Exercise 8: Variance expliquée Exercise 9: Tests paramétriques Exercise 10: Variance égale Exercise 11: Normalité des groupes Exercise 12: ANOVA Exercise 13: Tests non paramétriques Exercise 14: Comparer des classements Exercise 15: Comparer des médianes

Dans ce chapitre, vous mesurerez et interpréterez la taille d’effet dans différentes situations, vous aborderez le problème des comparaisons multiples et étudierez en profondeur la puissance d’un test. Les valeurs p indiquent si un effet significatif est présent, mais pas son intensité. La taille d’effet mesure l’ampleur de l’effet d’un traitement. Maîtrisez les facteurs qui sous-tendent la taille d’effet dans ce chapitre.

Exercise 1: Taille d’effet Exercise 2: Taille d’effet pour des moyennes Exercise 3: Taille d’effet pour les corrélations Exercise 4: Taille d’effet pour des variables catégorielles Exercise 5: Comparaisons multiples et corrections Exercise 6: Problème des comparaisons multiples

Exercice actuel

Exercise 7: Correction de Bonferroni-Holm Exercise 8: Puissance d’un test Exercise 9: Mais au fait, c’est quoi la puissance ?Exercise 10: Puissance et plan d’expérience Exercise 11: Calcul de la puissance et des tailles d’échantillon

Vous élargirez encore votre boîte à outils en statistiques inférentielles avec un aperçu du bootstrap, des tests de permutation et des méthodes de combinaison des preuves issues des valeurs p. Le bootstrap vous offrira une première approche de la simulation statistique. Dans la leçon consacrée à la méta-analyse, vous apprendrez à combiner les résultats de plusieurs études. Vous terminerez par les tests de permutation, un outil statistique non paramétrique puissant et flexible.

Exercise 1: Bootstrap Exercise 2: Intervalles de confiance par bootstrap Exercise 3: Bootstrap vs normalité Exercise 4: Combiner des preuves à partir de p-values Exercise 5: Méthode de Fisher avec SciPy Exercise 6: Inférence avec la méthode de Fisher Exercise 7: Résumer la méthode de Fisher Exercise 8: Tests de permutation Exercise 9: Tests de permutation pour les corrélations Exercise 10: Tests par permutation et bootstrap Exercise 11: Analyser des données asymétriques avec un test de permutation Exercise 12: Vidéo de conclusion du cours