Test d’hypothèse : les becs sont‑ils plus profonds en 2012 ?

Votre tracé de l’ECDF et le calcul de l’intervalle de confiance montrent assez clairement que les becs de G. scandens sur Daphne Major se sont approfondis. Mais est‑il possible que cet effet soit simplement dû au hasard ? Autrement dit, quelle est la probabilité d’obtenir la différence observée de moyenne de profondeur de bec si les moyennes étaient identiques ?

Attention ! L’hypothèse que nous testons n’est pas que les profondeurs de bec proviennent de la même distribution. Pour cela, nous pourrions utiliser un test de permutation. L’hypothèse porte sur l’égalité des moyennes. Pour réaliser ce test d’hypothèse, nous devons décaler les deux jeux de données afin qu’ils aient la même moyenne, puis utiliser un bootstrap pour calculer la différence de moyennes.

Cet exercice fait partie du cours

<cours>Réflexion statistique en Python (Partie 2)</cours>

Instructions de l’exercice

Créez un tableau concaténé des profondeurs de bec de 1975 et de 2012, puis calculez et stockez sa moyenne.
Décalez bd_1975 et bd_2012 de sorte que leur moyenne soit égale à celle que vous venez de calculer pour l’ensemble combiné.
Prenez 10 000 réplicats bootstrap de la moyenne pour les profondeurs de 1975 et de 2012.
Soustrayez les réplicats de 1975 de ceux de 2012 pour obtenir des réplicats bootstrap de la différence.
Calculez et affichez la p‑value. La différence observée des moyennes que vous avez calculée au dernier exercice est toujours disponible dans votre espace de travail sous le nom mean_diff.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Compute mean of combined data set: combined_mean
combined_mean = ____(____((bd_1975, bd_2012)))

# Shift the samples
bd_1975_shifted = ____
bd_2012_shifted = ____

# Get bootstrap replicates of shifted data sets
bs_replicates_1975 = ____
bs_replicates_2012 = ____

# Compute replicates of difference of means: bs_diff_replicates
bs_diff_replicates = ____

# Compute the p-value
p = np.sum(____ >= ____) / len(____)

# Print p-value
print('p =', p)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Réflexion statistique en Python (Partie 2)</cours>

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

En inférence statistique, nous parlons le langage des probabilités. Une loi de probabilité qui décrit vos données possède des paramètres. Un objectif majeur de l’inférence statistique est donc d’estimer la valeur de ces paramètres, ce qui nous permet de décrire nos données de façon concise et sans ambiguïté et d’en tirer des conclusions. Dans ce chapitre, vous apprendrez à trouver les paramètres optimaux, ceux qui décrivent le mieux vos données.

Exercise 1: Paramètres optimaux Exercise 2: À quelle fréquence observe-t-on des « no-hitters » ?Exercise 3: Les données confirment-elles notre histoire ?Exercise 4: En quoi ce paramètre est-il optimal ?Exercise 5: Régression linéaire par moindres carrés Exercise 6: EDA sur les données d’analphabétisme/fertilité Exercise 7: Régression linéaire Exercise 8: En quoi est-ce optimal ?Exercise 9: L’importance de l’EDA : le quartette d’Anscombe Exercise 10: L’importance de l’EDA Exercise 11: Régression linéaire sur des données pertinentes d’Anscombe Exercise 12: Régression linéaire sur l’ensemble des données d’Anscombe

« Se hisser par ses propres bootstraps » est une expression classique qui signifie réussir une tâche difficile par soi-même, sans aucune aide. En inférence statistique, vous voulez savoir ce qui se passerait si vous pouviez répéter votre acquisition de données un nombre infini de fois. Cette tâche est impossible, mais peut-on utiliser uniquement les données dont nous disposons pour s’approcher du même résultat qu’une infinité d’expériences ? La réponse est oui ! La technique pour y parvenir s’appelle à juste titre le bootstrap. Ce chapitre va vous présenter cet outil extraordinairement puissant.

Exercise 1: Générer des répliques bootstrap Exercise 2: Maîtriser la terminologie Exercise 3: Bootstrap à la main Exercise 4: Visualiser des échantillons bootstrap Exercise 5: Intervalles de confiance par bootstrap Exercise 6: Générer de nombreux réplicats bootstrap Exercise 7: Réplicats bootstrap de la moyenne et de la SEM Exercise 8: Intervalles de confiance des données de précipitations Exercise 9: Répliques bootstrap d’autres statistiques Exercise 10: Intervalle de confiance sur le taux de matchs sans coup sûr Exercise 11: Bootstrap par paires Exercise 12: Une fonction pour effectuer un bootstrap par paires Exercise 13: Bootstrap par paires sur les données illettrisme/fertilité Exercise 14: Tracer des régressions bootstrap

Vous savez désormais comment définir et estimer des paramètres à partir d’un modèle. Mais une question demeure : est-il raisonnable d’observer vos données si le modèle est vrai ? Cette question est traitée par les tests d’hypothèse. Ils constituent la touche finale de l’inférence. À l’issue de ce chapitre, vous serez en mesure de formuler et tester des hypothèses avec rigueur en utilisant les hacker statistics.

Exercise 1: Formuler et simuler une hypothèse Exercise 2: Générer un échantillon par permutation Exercise 3: Visualiser l’échantillonnage par permutation Exercise 4: Statistiques de test et valeurs p Exercise 5: Statistiques de test Exercise 6: Qu’est-ce qu’une p-valeur ?Exercise 7: Générer des réplicats par permutation Exercise 8: Regarder avant de sauter : EDA avant le test d’hypothèse Exercise 9: Test de permutation sur des données de grenouilles Exercise 10: Tests d’hypothèse par bootstrap Exercise 11: Un test d’hypothèse bootstrap à un échantillon Exercise 12: Test d’hypothèse bootstrap à deux échantillons pour une différence de moyennes

Comme vous l’avez vu au chapitre précédent, les tests d’hypothèse peuvent être un peu délicats. Il faut définir l’hypothèse nulle, déterminer comment la simuler, et préciser clairement ce que « plus extrême » signifie afin de calculer la p-valeur. Comme pour toute compétence, la pratique est essentielle, et ce chapitre vous propose de bons exercices de mise en pratique des tests d’hypothèse.

Exercise 1: Test A/B Exercise 2: Le vote sur le Civil Rights Act en 1964 Exercise 3: Qu’est-ce qui est équivalent ?Exercise 4: Un analogue au temps passé sur un site web Exercise 5: Qu’auriez-vous dû faire en premier ?Exercise 6: Test de corrélation Exercise 7: Simuler une hypothèse nulle concernant la corrélation Exercise 8: Test d’hypothèse sur la corrélation de Pearson Exercise 9: Les insecticides néonicotinoïdes ont-ils des effets indésirables ?Exercise 10: Test d’hypothèse par bootstrap sur les comptages de spermatozoïdes d’abeilles

Chaque année depuis plus de 40 ans, Peter et Rosemary Grant se rendent sur l’île de Daphne Major, dans l’archipel des Galápagos, et collectent des données sur les pinsons de Darwin. En mobilisant vos compétences en inférence statistique, vous passerez ce chapitre sur leurs données et observerez, grâce aux données, l’évolution à l’œuvre. Une façon enthousiasmante de conclure le cours !

Exercise 1: Becs de pinsons et nécessité des statistiques Exercise 2: EDA des profondeurs de bec des pinsons de Darwin Exercise 3: ECDF des profondeurs de bec Exercise 4: Estimations de paramètres pour les profondeurs de bec Exercise 5: Test d’hypothèse : les becs sont‑ils plus profonds en 2012 ?

Exercice actuel

Exercise 6: Variations des formes de bec Exercise 7: EDA de la longueur et de la profondeur du bec Exercise 8: Régressions linéaires Exercise 9: Afficher les résultats de la régression linéaire Exercise 10: Rapport longueur/profondeur du bec Exercise 11: En quoi le ratio est-il différent ?Exercise 12: Calcul de l’héritabilité Exercise 13: EDA de l’héritabilité Exercise 14: Corrélation entre les données des descendants et des parents Exercise 15: Corrélation de Pearson entre descendants et parents Exercise 16: Mesurer l’héritabilité Exercise 17: La profondeur du bec est-elle héréditaire chez G. scandens ?Exercise 18: Dernières réflexions