Test d’hypothèse : est-ce dû au hasard ?

L’EDA et la régression linéaire sont assez concluantes. Néanmoins, vous allez compléter l’analyse de l’effet zigzag en testant, via un test de permutation, l’hypothèse selon laquelle l’attribution des lignes n’a aucun lien avec la différence fractionnaire moyenne entre les lignes paires et impaires. Vous utiliserez le coefficient de corrélation de Pearson, que vous pouvez calculer avec dcst.pearson_r() comme statistique de test. Les variables lanes et f_13 sont déjà disponibles dans votre espace de travail.

Cet exercice fait partie du cours

Études de cas en pensée statistique

Afficher le cours

Instructions

Calculez le coefficient de corrélation de Pearson observé et stockez-le dans rho.
Initialisez un tableau pour stocker 10 000 réplicats par permutation de rho à l’aide de np.empty(). Nommez ce tableau perm_reps_rho.
Écrivez une boucle for pour générer les réplicats par permutation.
- Mélangez le tableau lanes avec np.random.permutation().
- Calculez le coefficient de corrélation de Pearson entre le tableau lanes mélangé et f_13. Stockez le résultat dans perm_reps_rho.
Calculez et affichez la p-value. Considérez « au moins aussi extrême que » comme un coefficient de corrélation de Pearson supérieur ou égal à la valeur observée.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Compute observed correlation: rho
rho = ____

# Initialize permutation reps: perm_reps_rho
perm_reps_rho = ____

# Make permutation reps
for i in range(10000):
    # Scramble the lanes array: scrambled_lanes
    scrambled_lanes = ____
    
    # Compute the Pearson correlation coefficient
    ____[i] = ____
    
# Compute and print p-value
p_val = ____(____ >= ____) / 10000
print('p =', p_val)

Modifier et exécuter le code

Cet exercice fait partie du cours

Études de cas en pensée statistique

IntermédiaireNiveau de compétence

4.9+

Commencer le cours gratuitement

Pour commencer, vous utiliserez deux jeux de données de chercheurs du Caltech pour revoir les points clés de Statistical Thinking I et II et vous préparer aux études de cas suivantes !

Exercise 1: Activité des poissons-zèbres et mélatonine Exercise 2: EDA : tracer des ECDF de la durée des phases d’activité Exercise 3: Interpréter les ECDF et l’histoire qu’elles racontent Exercise 4: Intervalles de confiance par bootstrap Exercise 5: Estimation de paramètres : durée des périodes d’activité Exercise 6: Tests d’hypothèse par permutation et bootstrap Exercise 7: Test par permutation : type sauvage vs hétérozygote Exercise 8: Test d’hypothèse par bootstrap Exercise 9: Régressions linéaires et bootstrap par paires Exercise 10: Évaluer le taux de croissance Exercise 11: Tracer la courbe de croissance

Dans ce chapitre, vous pratiquerez vos compétences en EDA, en estimation de paramètres et en tests d’hypothèse sur les résultats des Championnats du monde de natation FINA 2015.

Exercise 1: Introduction aux données de natation Exercise 2: EDA graphique des séries du 200 m nage libre hommes Exercise 3: 200 m nage libre avec intervalle de confiance Exercise 4: Les nageurs vont-ils plus vite en finale ?Exercise 5: EDA : finales vs demi-finales Exercise 6: Estimation des paramètres : différence entre finales et demi-finales Exercise 7: Comment réaliser le test de permutation Exercise 8: Générer des échantillons par permutation Exercise 9: Test d’hypothèse : les femmes nagent-elles de la même façon en demi-finales et en finales ?Exercise 10: Comment la performance des nageurs diminue-t-elle sur les longues épreuves ?Exercise 11: EDA : visualiser toutes vos données Exercise 12: Régression linéaire du temps moyen par split Exercise 13: Test d’hypothèse : ralentissent-ils ?

Certains nageurs ont indiqué qu’ils trouvaient plus facile de nager dans un sens que dans l’autre lors des Mondiaux 2013. Des analystes ont avancé l’hypothèse de la présence d’un courant tourbillonnant dans le bassin. Dans ce chapitre, vous enquêterez sur cette affirmation ! Références - <a href="https://qz.com/761280/researchers-believe-certain-lanes-in-the-olympic-pool-may-have-given-some-swimmers-an-advantage/" target="_blank">Quartz Media</a>, <a href="https://www.washingtonpost.com/news/wonk/wp/2016/09/01/these-charts-clearly-show-how-some-olympic-swimmers-may-have-gotten-an-unfair-advantage/?utm_term=.dba907006ba1" target="_blank">Washington Post</a>, <a href="https://swimswam.com/rio-olympic-test-event-showed-same-pool-bias-2-0/" target="_blank">SwimSwam</a> (et aussi <a href="https://swimswam.com/problem-rio-pool/" target="_blank">ici)</a>, et <a href="https://www.ncbi.nlm.nih.gov/pubmed/25003776" target="_blank">Cornett, et al</a>.

Exercise 1: Introduction à la controverse du courant Exercise 2: Un indicateur d’amélioration Exercise 3: ECDF de l’amélioration des couloirs bas vers hauts Exercise 4: Estimation de l’amélioration moyenne Exercise 5: Comment tester l’hypothèse ?Exercise 6: Test d'hypothèse : l’attribution des couloirs affecte-t-elle la performance ?Exercise 7: L’édition 2015 a-t-elle présenté le même problème ?Exercise 8: L’effet zigzag Exercise 9: Quelles sections devons-nous prendre en compte ?Exercise 10: EDA : différence moyenne entre portions impaires et paires Exercise 11: Comment l’effet du courant dépend-il de la position dans la ligne d’eau ?Exercise 12: Test d’hypothèse : est-ce dû au hasard ?

Exercice en cours

Exercise 13: Récapitulatif de l’analyse de la natation

Ici, vous utiliserez vos compétences en pensée statistique pour étudier la fréquence et la magnitude des séismes. Au passage, vous apprendrez des notions de sismologie statistique, notamment la loi de Gutenberg-Richter. Cet exercice met en lumière deux idées clés de la data science : 1) En tant que data scientist, vous abordez toutes sortes d’analyses spécifiques à un domaine, ce qui est très stimulant. Vous apprenez en permanence. 2) Vous êtes parfois confronté à des données limitées, comme c’est le cas pour plusieurs de ces études sismiques. Vous pouvez malgré tout faire de bons progrès !

Exercise 1: Introduction à la sismologie statistique et à l’expérience de Parkfield Exercise 2: Magnitudes des séismes à Parkfield Exercise 3: Calcul de la valeur b Exercise 4: La valeur b pour Parkfield Exercise 5: Chronologie des grands séismes et séquence de Parkfield Exercise 6: Estimations des intervalles intersismiques à Parkfield Exercise 7: Quand aura lieu le prochain grand séisme à Parkfield ?Exercise 8: Comment se répartissent les intervalles entre séismes à Parkfield ?Exercise 9: Calculer la valeur d’une ECDF formelle Exercise 10: Calculer la statistique K-S Exercise 11: Générer des réplicats K-S Exercise 12: Le test K-S d’exponentialité

Les séismes ont bien sûr un fort impact sur la société et sont récemment liés à des activités humaines. Dans ce dernier chapitre, vous examinerez l’effet qu’a eu l’augmentation de l’injection d’eaux usées salines due à l’exploitation pétrolière en Oklahoma sur la sismicité de la région.

Exercise 1: Variations de la fréquence des séismes et de la sismicité Exercise 2: EDA : tracer les séismes dans le temps Exercise 3: Estimations des temps moyens entre séismes Exercise 4: Test d’hypothèse : la fréquence des séismes a-t-elle changé ?Exercise 5: Comment présenter votre analyse Exercise 6: Magnitudes des séismes en Oklahoma Exercise 7: EDA : comparer les magnitudes avant et après 2010 Exercise 8: Quantification des valeurs de b Exercise 9: Comment tester une hypothèse sur les différences de la valeur b ?Exercise 10: Test d’hypothèse : les valeurs de b sont-elles différentes ?Exercise 11: Que pouvez-vous conclure de cette analyse ?Exercise 12: Remarques finales