Analyser des données asymétriques avec un test de permutation

Les tests de permutation sont utiles lorsque les conditions des tests d’hypothèse que vous connaissez ne sont pas réunies. Dans cet exercice, vous allez coder un test de permutation avec le package statsmodels.

Vous souhaitez comparer le nombre moyen de tours de financement entre les entreprises du domaine de l’analytics et toutes les autres entreprises financées par du capital-risque. Même si vous pourriez être tenté d’utiliser un t-test, vous savez que le nombre de tours de financement n’est pas distribué normalement. La plupart des entreprises n’ont qu’un seul tour, et le nombre d’entreprises ayant deux tours ou plus diminue rapidement.

Les éléments suivants ont été chargés pour vous :

analytics_df - Données sur toutes les entreprises d’analytics
non_analytics_df - Données sur toutes les autres entreprises (hors analytics)

Cet exercice fait partie du cours

<cours>Fondements de l’inférence en Python</cours>

Instructions de l’exercice

Définissez une fonction statistique qui, étant donnés deux échantillons fundings_group_1 et fundings_group_2, renvoie la différence de moyenne du nombre de funding_rounds.
Réalisez un test de permutation en utilisant la colonne funding_rounds de chaque jeu de données, la fonction statistique que vous avez définie, et 100 rééchantillonnages.
Affichez la p-valeur résultante de votre test de permutation.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Write a "statistic" function which calculates the difference in means
def statistic(funding_group_1, funding_group_2):
  return ____(fundings_group_1) - ____(funding_group_2)

# Conduct a permutation test using 100 resamples
perm_result = stats.permutation_test((____['funding_rounds'], ____['funding_rounds']),
                                    statistic=____,
                                    n_resamples=____,
                                    vectorized=____)

# Print the p-value
____(____.pvalue)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Fondements de l’inférence en Python</cours>

AvancéNiveau de compétence

4.9+

Commencer le cours gratuitement

In this chapter, we'll explore the relationship between samples and statistically justifiable conclusions. Choosing a sample is the basis of making sound statistical decisions, and we’ll explore how the choice of a sample affects the outcome of your inference.

Exercise 1: Statistical inference and random sampling Exercise 2: Sampling and point estimates Exercise 3: Repeated sampling, point estimates and inference Exercise 4: Sampling and bias Exercise 5: Visualizing samples Exercise 6: Inference and bias Exercise 7: Confidence intervals and sampling Exercise 8: Normal sampling distributions Exercise 9: Calculating confidence intervals Exercise 10: Drawing conclusions from samples

Learn all about applying normality tests, correlation tests, and parametric and non-parametric tests for sound inference. Hypothesis tests are tools, and choosing the right tool for the job is critical for statistical decision-making. While you may be familiar with some of these tests in introductory courses, you'll go deeper to enhance your inferential toolkit in this chapter.

Exercise 1: Normality tests Exercise 2: Testing for normality Exercise 3: Distribution of errors Exercise 4: Fitting a normal distribution Exercise 5: Correlation tests Exercise 6: Testing for correlation Exercise 7: Autocorrelation Exercise 8: Explained variance Exercise 9: Parametric tests Exercise 10: Equal variance Exercise 11: Normality of groups Exercise 12: ANOVA Exercise 13: Non-parametric tests Exercise 14: Comparing rankings Exercise 15: Comparing medians

In this chapter, you'll measure and interpret effect size in various situations, encounter the multiple comparisons problem, and explore the power of a test in depth. While p-values tell you if a significant effect is present, they don't tell you how strong that effect is. Effect size measures how strong an effect a treatment has. Master the factors underpinning effect size in this chapter.

Exercise 1: Effect size Exercise 2: Effect size for means Exercise 3: Effect size for correlations Exercise 4: Effect size for categorical variables Exercise 5: Multiple comparisons and corrections Exercise 6: Multiple comparisons problem Exercise 7: Bonferonni-Holm correction Exercise 8: Power of a test Exercise 9: What is power anyway?Exercise 10: Power for experimental design Exercise 11: Computing power and sample sizes

You’ll expand your inferential statistics toolkit further with a look at bootstrapping, permutation tests, and methods of combining evidence from p-values. Bootstrapping will provide you with a first look at statistical simulation. In the lesson meta-analysis, you’ll learn all about combining results from multiple studies. You’ll end with a look at permutation tests, a powerful and flexible non-parametric statistical tool.

Exercise 1: Bootstrap Exercise 2: Intervalles de confiance par bootstrap Exercise 3: Bootstrap vs normalité Exercise 4: Combiner des preuves à partir de p-values Exercise 5: Méthode de Fisher avec SciPy Exercise 6: Inférence avec la méthode de Fisher Exercise 7: Résumer la méthode de Fisher Exercise 8: Tests de permutation Exercise 9: Tests de permutation pour les corrélations Exercise 10: Tests par permutation et bootstrap Exercise 11: Analyser des données asymétriques avec un test de permutation

Exercice actuel

Exercise 12: Vidéo de conclusion du cours