Test d'ipotesi sulla correlazione di Pearson

La correlazione osservata tra analfabetismo femminile e fertilità potrebbe essere dovuta al caso; la fertilità di un dato Paese potrebbe in realtà essere del tutto indipendente dal suo livello di analfabetismo. Metterai alla prova questa ipotesi. Per farlo, permuta i valori di analfabetismo lasciando fissi quelli di fertilità. In questo modo simuli l'ipotesi che siano completamente indipendenti tra loro. Per ogni permutazione, calcola il coefficiente di correlazione di Pearson e verifica quante delle tue repliche per permutazione hanno un coefficiente di Pearson maggiore di quello osservato.

La funzione pearson_r() che hai scritto nel prequel di questo corso per calcolare il coefficiente di correlazione di Pearson è già a tua disposizione.

Questo esercizio fa parte del corso

Pensiero statistico in Python (Parte 2)

Visualizza corso

Istruzioni dell'esercizio

Calcola la correlazione di Pearson osservata tra illiteracy e fertility.
Inizializza un array per memorizzare le tue repliche per permutazione.
Scrivi un ciclo for per generare 10.000 repliche:
- Permuta le misurazioni di illiteracy usando np.random.permutation().
- Calcola la correlazione di Pearson tra l'array di analfabetismo permutato, illiteracy_permuted, e fertility.
Calcola e stampa il p-value ottenuto dalle repliche.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Compute observed correlation: r_obs
r_obs = ____

# Initialize permutation replicates: perm_replicates
perm_replicates = np.empty(10000)

# Draw replicates
for ____ in ____:
    # Permute illiteracy measurments: illiteracy_permuted
    illiteracy_permuted = ____

    # Compute Pearson correlation
    perm_replicates[i] = ____

# Compute p-value: p
p = ____
print('p-val =', p)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Pensiero statistico in Python (Parte 2)

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

Quando facciamo inferenza statistica, parliamo il linguaggio della probabilità. Una distribuzione di probabilità che descrive i tuoi dati ha dei parametri. Quindi, un obiettivo fondamentale dell’inferenza statistica è stimare i valori di questi parametri, così da descrivere i dati in modo conciso e non ambiguo e trarne conclusioni. In questo capitolo imparerai a trovare i parametri ottimali, quelli che descrivono al meglio i tuoi dati.

Exercise 1: Parametri ottimali Exercise 2: Quanto spesso si verificano i no-hitter?Exercise 3: I dati seguono la nostra storia?Exercise 4: In che senso questo parametro è ottimale?Exercise 5: Regressione lineare con minimi quadrati Exercise 6: EDA su alfabetizzazione/fertilità Exercise 7: Regressione lineare Exercise 8: Quanto è ottimale?Exercise 9: L'importanza dell'EDA: il quartetto di Anscombe Exercise 10: L'importanza dell'EDA Exercise 11: Regressione lineare sui dati appropriati di Anscombe Exercise 12: Regressione lineare su tutti i dati di Anscombe

“Tirarsi su per i lacci degli stivali” è un modo di dire classico che indica il riuscire in un compito difficile da soli, senza alcun aiuto. Nell’inferenza statistica, vuoi sapere cosa succederebbe se potessi ripetere l’acquisizione dei dati un numero infinito di volte. Questo è impossibile, ma possiamo usare solo i dati che abbiamo per avvicinarci al risultato che otterremmo con infiniti esperimenti? La risposta è sì! La tecnica per farlo si chiama, a ragione, bootstrapping. Questo capitolo ti introdurrà a questo strumento straordinariamente potente.

Exercise 1: Generare repliche bootstrap Exercise 2: Fissiamo la terminologia Exercise 3: Bootstrap a mano Exercise 4: Visualizzare i campioni bootstrap Exercise 5: Intervalli di confidenza bootstrap Exercise 6: Generare molti replicati bootstrap Exercise 7: Bootstrap replicates della media e del SEM Exercise 8: Intervalli di confidenza dei dati sulle precipitazioni Exercise 9: Repliche bootstrap di altre statistiche Exercise 10: Intervallo di confidenza sul tasso di no-hitter Exercise 11: Bootstrap a coppie Exercise 12: Una funzione per fare pairs bootstrap Exercise 13: Pairs bootstrap su dati di analfabetismo/fertilità Exercise 14: Tracciare regressioni bootstrap

Ora sai come definire e stimare i parametri dato un modello. Ma resta la domanda: quanto è ragionevole osservare i tuoi dati se un modello è vero? A questa domanda rispondono i test d’ipotesi. Sono la ciliegina sulla torta dell’inferenza. Dopo aver completato questo capitolo, sarai in grado di costruire e testare con cura ipotesi usando le hacker statistics.

Exercise 1: Formulare e simulare un'ipotesi Exercise 2: Generare un campione di permutazione Exercise 3: Visualizzare il campionamento per permutazione Exercise 4: Statistiche di test e p-value Exercise 5: Statistiche test Exercise 6: Che cos’è un p-value?Exercise 7: Generare repliche di permutazione Exercise 8: Guarda prima di saltare: EDA prima dei test d'ipotesi Exercise 9: Test di permutazione sui dati delle rane Exercise 10: Test di ipotesi con bootstrap Exercise 11: Un test d’ipotesi bootstrap a un campione Exercise 12: Un test di ipotesi bootstrap a due campioni per la differenza tra medie

Come hai visto nel capitolo precedente, i test d’ipotesi possono essere un po’ insidiosi. Devi definire l’ipotesi nulla, capire come simularla e chiarire cosa significa “più estremo” per calcolare il p-value. Come per qualsiasi abilità, la pratica rende perfetti, e questo capitolo ti offre un’ottima palestra per esercitarti con i test d’ipotesi.

Exercise 1: Test A/B Exercise 2: Il voto sul Civil Rights Act del 1964 Exercise 3: Cosa è equivalente?Exercise 4: Un analogo del tempo sul sito web Exercise 5: Cosa avresti dovuto fare per primo?Exercise 6: Test di correlazione Exercise 7: Simulare un’ipotesi nulla sulla correlazione Exercise 8: Test d'ipotesi sulla correlazione di Pearson

Esercizio attuale

Exercise 9: I pesticidi neonicotinoidi hanno conseguenze indesiderate?Exercise 10: Test d'ipotesi bootstrap sui conteggi di spermatozoi delle api

Ogni anno, da oltre 40 anni, Peter e Rosemary Grant vanno sull’isola di Daphne Major, alle Galápagos, e raccolgono dati sui fringuelli di Darwin. Con le tue competenze di inferenza statistica, in questo capitolo lavorerai con i loro dati e vedrai in prima persona, attraverso i dati, l’evoluzione in azione. È un modo entusiasmante per concludere il corso!

Exercise 1: I becchi dei fringuelli e il bisogno della statistica Exercise 2: EDA sulle profondità del becco dei fringuelli di Darwin Exercise 3: ECDF delle profondità del becco Exercise 4: Stime dei parametri delle profondità del becco Exercise 5: Test d'ipotesi: i becchi sono più profondi nel 2012?Exercise 6: Variazione nelle forme del becco Exercise 7: EDA di lunghezza e profondità del becco Exercise 8: Regressioni lineari Exercise 9: Visualizzare i risultati della regressione lineare Exercise 10: Rapporto lunghezza/profondità del becco Exercise 11: Quanto è diverso il rapporto?Exercise 12: Calcolo dell'ereditarietà Exercise 13: EDA dell'ereditarietà Exercise 14: Correlazione tra discendenti e genitori Exercise 15: Correlazione di Pearson tra dati di prole e genitori Exercise 16: Misurare l’ereditarietà Exercise 17: La profondità del becco è ereditaria in G. scandens?Exercise 18: Considerazioni finali