Test d'ipotesi: i becchi sono più profondi nel 2012?

Il tuo grafico ECDF e l'intervallo di confidenza fanno capire piuttosto chiaramente che i becchi di G. scandens su Daphne Major sono diventati più profondi. Ma è possibile che questo effetto sia dovuto solo al caso? In altre parole, qual è la probabilità di ottenere la differenza osservata nella media della profondità del becco se le medie fossero uguali?

Attenzione! L'ipotesi che stiamo testando non è che le profondità dei becchi provengano dalla stessa distribuzione. Per quello potremmo usare un test di permutazione. L'ipotesi è che le medie siano uguali. Per eseguire questo test d'ipotesi, dobbiamo traslare i due insiemi di dati in modo che abbiano la stessa media e poi usare il bootstrap per calcolare la differenza delle medie.

Questo esercizio fa parte del corso

Pensiero statistico in Python (Parte 2)

Visualizza corso

Istruzioni dell'esercizio

Crea un array concatenato con le profondità del becco del 1975 e del 2012 e calcolane e memorizzane la media.
Trasla bd_1975 e bd_2012 in modo che le loro medie siano uguali a quella che hai appena calcolato per l'insieme di dati combinato.
Esegui 10.000 bootstrap replicates della media sia per le profondità del becco del 1975 sia per quelle del 2012.
Sottrai i replicates del 1975 da quelli del 2012 per ottenere i bootstrap replicates della differenza.
Calcola e stampa il p-value. La differenza osservata tra le medie che hai calcolato nell'ultimo esercizio è ancora nel tuo namespace come mean_diff.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Compute mean of combined data set: combined_mean
combined_mean = ____(____((bd_1975, bd_2012)))

# Shift the samples
bd_1975_shifted = ____
bd_2012_shifted = ____

# Get bootstrap replicates of shifted data sets
bs_replicates_1975 = ____
bs_replicates_2012 = ____

# Compute replicates of difference of means: bs_diff_replicates
bs_diff_replicates = ____

# Compute the p-value
p = np.sum(____ >= ____) / len(____)

# Print p-value
print('p =', p)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Pensiero statistico in Python (Parte 2)

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

Quando facciamo inferenza statistica, parliamo il linguaggio della probabilità. Una distribuzione di probabilità che descrive i tuoi dati ha dei parametri. Quindi, un obiettivo fondamentale dell’inferenza statistica è stimare i valori di questi parametri, così da descrivere i dati in modo conciso e non ambiguo e trarne conclusioni. In questo capitolo imparerai a trovare i parametri ottimali, quelli che descrivono al meglio i tuoi dati.

Exercise 1: Parametri ottimali Exercise 2: Quanto spesso si verificano i no-hitter?Exercise 3: I dati seguono la nostra storia?Exercise 4: In che senso questo parametro è ottimale?Exercise 5: Regressione lineare con minimi quadrati Exercise 6: EDA su alfabetizzazione/fertilità Exercise 7: Regressione lineare Exercise 8: Quanto è ottimale?Exercise 9: L'importanza dell'EDA: il quartetto di Anscombe Exercise 10: L'importanza dell'EDA Exercise 11: Regressione lineare sui dati appropriati di Anscombe Exercise 12: Regressione lineare su tutti i dati di Anscombe

“Tirarsi su per i lacci degli stivali” è un modo di dire classico che indica il riuscire in un compito difficile da soli, senza alcun aiuto. Nell’inferenza statistica, vuoi sapere cosa succederebbe se potessi ripetere l’acquisizione dei dati un numero infinito di volte. Questo è impossibile, ma possiamo usare solo i dati che abbiamo per avvicinarci al risultato che otterremmo con infiniti esperimenti? La risposta è sì! La tecnica per farlo si chiama, a ragione, bootstrapping. Questo capitolo ti introdurrà a questo strumento straordinariamente potente.

Exercise 1: Generare repliche bootstrap Exercise 2: Fissiamo la terminologia Exercise 3: Bootstrap a mano Exercise 4: Visualizzare i campioni bootstrap Exercise 5: Intervalli di confidenza bootstrap Exercise 6: Generare molti replicati bootstrap Exercise 7: Bootstrap replicates della media e del SEM Exercise 8: Intervalli di confidenza dei dati sulle precipitazioni Exercise 9: Repliche bootstrap di altre statistiche Exercise 10: Intervallo di confidenza sul tasso di no-hitter Exercise 11: Bootstrap a coppie Exercise 12: Una funzione per fare pairs bootstrap Exercise 13: Pairs bootstrap su dati di analfabetismo/fertilità Exercise 14: Tracciare regressioni bootstrap

Ora sai come definire e stimare i parametri dato un modello. Ma resta la domanda: quanto è ragionevole osservare i tuoi dati se un modello è vero? A questa domanda rispondono i test d’ipotesi. Sono la ciliegina sulla torta dell’inferenza. Dopo aver completato questo capitolo, sarai in grado di costruire e testare con cura ipotesi usando le hacker statistics.

Exercise 1: Formulare e simulare un'ipotesi Exercise 2: Generare un campione di permutazione Exercise 3: Visualizzare il campionamento per permutazione Exercise 4: Statistiche di test e p-value Exercise 5: Statistiche test Exercise 6: Che cos’è un p-value?Exercise 7: Generare repliche di permutazione Exercise 8: Guarda prima di saltare: EDA prima dei test d'ipotesi Exercise 9: Test di permutazione sui dati delle rane Exercise 10: Test di ipotesi con bootstrap Exercise 11: Un test d’ipotesi bootstrap a un campione Exercise 12: Un test di ipotesi bootstrap a due campioni per la differenza tra medie

Come hai visto nel capitolo precedente, i test d’ipotesi possono essere un po’ insidiosi. Devi definire l’ipotesi nulla, capire come simularla e chiarire cosa significa “più estremo” per calcolare il p-value. Come per qualsiasi abilità, la pratica rende perfetti, e questo capitolo ti offre un’ottima palestra per esercitarti con i test d’ipotesi.

Exercise 1: Test A/B Exercise 2: Il voto sul Civil Rights Act del 1964 Exercise 3: Cosa è equivalente?Exercise 4: Un analogo del tempo sul sito web Exercise 5: Cosa avresti dovuto fare per primo?Exercise 6: Test di correlazione Exercise 7: Simulare un’ipotesi nulla sulla correlazione Exercise 8: Test d'ipotesi sulla correlazione di Pearson Exercise 9: I pesticidi neonicotinoidi hanno conseguenze indesiderate?Exercise 10: Test d'ipotesi bootstrap sui conteggi di spermatozoi delle api

Ogni anno, da oltre 40 anni, Peter e Rosemary Grant vanno sull’isola di Daphne Major, alle Galápagos, e raccolgono dati sui fringuelli di Darwin. Con le tue competenze di inferenza statistica, in questo capitolo lavorerai con i loro dati e vedrai in prima persona, attraverso i dati, l’evoluzione in azione. È un modo entusiasmante per concludere il corso!

Exercise 1: I becchi dei fringuelli e il bisogno della statistica Exercise 2: EDA sulle profondità del becco dei fringuelli di Darwin Exercise 3: ECDF delle profondità del becco Exercise 4: Stime dei parametri delle profondità del becco Exercise 5: Test d'ipotesi: i becchi sono più profondi nel 2012?

Esercizio attuale

Exercise 6: Variazione nelle forme del becco Exercise 7: EDA di lunghezza e profondità del becco Exercise 8: Regressioni lineari Exercise 9: Visualizzare i risultati della regressione lineare Exercise 10: Rapporto lunghezza/profondità del becco Exercise 11: Quanto è diverso il rapporto?Exercise 12: Calcolo dell'ereditarietà Exercise 13: EDA dell'ereditarietà Exercise 14: Correlazione tra discendenti e genitori Exercise 15: Correlazione di Pearson tra dati di prole e genitori Exercise 16: Misurare l’ereditarietà Exercise 17: La profondità del becco è ereditaria in G. scandens?Exercise 18: Considerazioni finali