Test d’hypothèse : ralentissent-ils ?

Nous allons maintenant tester l’hypothèse nulle selon laquelle le temps de passage du nageur n’est pas du tout corrélé à la distance parcourue dans la course. Nous utiliserons le coefficient de corrélation de Pearson (calculé avec dcst.pearson_r()) comme statistique de test.

Cet exercice fait partie du cours

Études de cas en pensée statistique

Afficher le cours

Instructions

Calculez la corrélation de Pearson observée et stockez-la dans rho.
À l’aide de np.empty(), initialisez le tableau de 10 000 réplicats par permutation de la corrélation de Pearson, nommé perm_reps_rho.
Écrivez une boucle for pour :
- Mélanger le tableau des numéros de fraction de course avec np.random.permutation(), et nommez-le scrambled_split_number.
- Calculer le coefficient de corrélation de Pearson entre ce tableau mélangé et les temps moyens par fraction, puis l’enregistrer dans perm_reps_rho.
Calculez la valeur p et affichez-la à l’écran. Interprétez « au moins aussi extrême que » comme une corrélation de Pearson au moins aussi grande que celle observée.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Observed correlation
rho = ____

# Initialize permutation reps
perm_reps_rho = ____

# Make permutation reps
for i in range(10000):
    # Scramble the split number array
    scrambled_split_number = ____
    
    # Compute the Pearson correlation coefficient
    ____[i] = ____
    
# Compute and print p-value
p_val = ____(____ >= ____) / ____
print('p =', p_val)

Modifier et exécuter le code

Cet exercice fait partie du cours

Études de cas en pensée statistique

IntermédiaireNiveau de compétence

4.9+

Commencer le cours gratuitement

Pour commencer, vous utiliserez deux jeux de données de chercheurs du Caltech pour revoir les points clés de Statistical Thinking I et II et vous préparer aux études de cas suivantes !

Exercise 1: Activité des poissons-zèbres et mélatonine Exercise 2: EDA : tracer des ECDF de la durée des phases d’activité Exercise 3: Interpréter les ECDF et l’histoire qu’elles racontent Exercise 4: Intervalles de confiance par bootstrap Exercise 5: Estimation de paramètres : durée des périodes d’activité Exercise 6: Tests d’hypothèse par permutation et bootstrap Exercise 7: Test par permutation : type sauvage vs hétérozygote Exercise 8: Test d’hypothèse par bootstrap Exercise 9: Régressions linéaires et bootstrap par paires Exercise 10: Évaluer le taux de croissance Exercise 11: Tracer la courbe de croissance

Dans ce chapitre, vous pratiquerez vos compétences en EDA, en estimation de paramètres et en tests d’hypothèse sur les résultats des Championnats du monde de natation FINA 2015.

Exercise 1: Introduction aux données de natation Exercise 2: EDA graphique des séries du 200 m nage libre hommes Exercise 3: 200 m nage libre avec intervalle de confiance Exercise 4: Les nageurs vont-ils plus vite en finale ?Exercise 5: EDA : finales vs demi-finales Exercise 6: Estimation des paramètres : différence entre finales et demi-finales Exercise 7: Comment réaliser le test de permutation Exercise 8: Générer des échantillons par permutation Exercise 9: Test d’hypothèse : les femmes nagent-elles de la même façon en demi-finales et en finales ?Exercise 10: Comment la performance des nageurs diminue-t-elle sur les longues épreuves ?Exercise 11: EDA : visualiser toutes vos données Exercise 12: Régression linéaire du temps moyen par split Exercise 13: Test d’hypothèse : ralentissent-ils ?

Exercice en cours

Certains nageurs ont indiqué qu’ils trouvaient plus facile de nager dans un sens que dans l’autre lors des Mondiaux 2013. Des analystes ont avancé l’hypothèse de la présence d’un courant tourbillonnant dans le bassin. Dans ce chapitre, vous enquêterez sur cette affirmation ! Références - <a href="https://qz.com/761280/researchers-believe-certain-lanes-in-the-olympic-pool-may-have-given-some-swimmers-an-advantage/" target="_blank">Quartz Media</a>, <a href="https://www.washingtonpost.com/news/wonk/wp/2016/09/01/these-charts-clearly-show-how-some-olympic-swimmers-may-have-gotten-an-unfair-advantage/?utm_term=.dba907006ba1" target="_blank">Washington Post</a>, <a href="https://swimswam.com/rio-olympic-test-event-showed-same-pool-bias-2-0/" target="_blank">SwimSwam</a> (et aussi <a href="https://swimswam.com/problem-rio-pool/" target="_blank">ici)</a>, et <a href="https://www.ncbi.nlm.nih.gov/pubmed/25003776" target="_blank">Cornett, et al</a>.

Exercise 1: Introduction à la controverse du courant Exercise 2: Un indicateur d’amélioration Exercise 3: ECDF de l’amélioration des couloirs bas vers hauts Exercise 4: Estimation de l’amélioration moyenne Exercise 5: Comment tester l’hypothèse ?Exercise 6: Test d'hypothèse : l’attribution des couloirs affecte-t-elle la performance ?Exercise 7: L’édition 2015 a-t-elle présenté le même problème ?Exercise 8: L’effet zigzag Exercise 9: Quelles sections devons-nous prendre en compte ?Exercise 10: EDA : différence moyenne entre portions impaires et paires Exercise 11: Comment l’effet du courant dépend-il de la position dans la ligne d’eau ?Exercise 12: Test d’hypothèse : est-ce dû au hasard ?Exercise 13: Récapitulatif de l’analyse de la natation

Ici, vous utiliserez vos compétences en pensée statistique pour étudier la fréquence et la magnitude des séismes. Au passage, vous apprendrez des notions de sismologie statistique, notamment la loi de Gutenberg-Richter. Cet exercice met en lumière deux idées clés de la data science : 1) En tant que data scientist, vous abordez toutes sortes d’analyses spécifiques à un domaine, ce qui est très stimulant. Vous apprenez en permanence. 2) Vous êtes parfois confronté à des données limitées, comme c’est le cas pour plusieurs de ces études sismiques. Vous pouvez malgré tout faire de bons progrès !

Exercise 1: Introduction à la sismologie statistique et à l’expérience de Parkfield Exercise 2: Magnitudes des séismes à Parkfield Exercise 3: Calcul de la valeur b Exercise 4: La valeur b pour Parkfield Exercise 5: Chronologie des grands séismes et séquence de Parkfield Exercise 6: Estimations des intervalles intersismiques à Parkfield Exercise 7: Quand aura lieu le prochain grand séisme à Parkfield ?Exercise 8: Comment se répartissent les intervalles entre séismes à Parkfield ?Exercise 9: Calculer la valeur d’une ECDF formelle Exercise 10: Calculer la statistique K-S Exercise 11: Générer des réplicats K-S Exercise 12: Le test K-S d’exponentialité

Les séismes ont bien sûr un fort impact sur la société et sont récemment liés à des activités humaines. Dans ce dernier chapitre, vous examinerez l’effet qu’a eu l’augmentation de l’injection d’eaux usées salines due à l’exploitation pétrolière en Oklahoma sur la sismicité de la région.

Exercise 1: Variations de la fréquence des séismes et de la sismicité Exercise 2: EDA : tracer les séismes dans le temps Exercise 3: Estimations des temps moyens entre séismes Exercise 4: Test d’hypothèse : la fréquence des séismes a-t-elle changé ?Exercise 5: Comment présenter votre analyse Exercise 6: Magnitudes des séismes en Oklahoma Exercise 7: EDA : comparer les magnitudes avant et après 2010 Exercise 8: Quantification des valeurs de b Exercise 9: Comment tester une hypothèse sur les différences de la valeur b ?Exercise 10: Test d’hypothèse : les valeurs de b sont-elles différentes ?Exercise 11: Que pouvez-vous conclure de cette analyse ?Exercise 12: Remarques finales