Regressione lineare

Supponiamo che la fertilità sia una funzione lineare del tasso di analfabetismo femminile. Cioè, \(f = a i + b\), dove \(a\) è la pendenza e \(b\) è l’intercetta. Possiamo pensare all’intercetta come al tasso minimo di fertilità, probabilmente tra uno e due. La pendenza ci dice come varia il tasso di fertilità con l’analfabetismo. Possiamo trovare la retta di best fit usando np.polyfit().

Traccia i dati e la retta di best fit. Stampa pendenza e intercetta. (Pensa: quali sono le loro unità di misura?)

Questo esercizio fa parte del corso

Pensiero statistico in Python (Parte 2)

Visualizza corso

Istruzioni dell'esercizio

Calcola pendenza e intercetta della retta di regressione usando np.polyfit(). Ricorda: fertility è sull’asse y e illiteracy sull’asse x.
Stampa la pendenza e l’intercetta ottenute dalla regressione lineare.
Per tracciare la retta di best fit, crea un array x che contenga 0 e 100 usando np.array(). Poi calcola i valori teorici di y in base ai parametri della regressione, cioè y = a * x + b.
Rappresenta nello stesso grafico sia i dati sia la retta di regressione. Ricorda di etichettare gli assi.
Premi Invia per visualizzare il grafico.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Plot the illiteracy rate versus fertility
_ = plt.plot(illiteracy, fertility, marker='.', linestyle='none')
plt.margins(0.02)
_ = plt.xlabel('percent illiterate')
_ = plt.ylabel('fertility')

# Perform a linear regression using np.polyfit(): a, b
a, b = ____

# Print the results to the screen
print('slope =', a, 'children per woman / percent illiterate')
print('intercept =', b, 'children per woman')

# Make theoretical line to plot
x = ____
y = ____ * ____ + ____

# Add regression line to your plot
_ = plt.plot(____, ____)

# Draw the plot
plt.show()

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Pensiero statistico in Python (Parte 2)

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

Quando facciamo inferenza statistica, parliamo il linguaggio della probabilità. Una distribuzione di probabilità che descrive i tuoi dati ha dei parametri. Quindi, un obiettivo fondamentale dell’inferenza statistica è stimare i valori di questi parametri, così da descrivere i dati in modo conciso e non ambiguo e trarne conclusioni. In questo capitolo imparerai a trovare i parametri ottimali, quelli che descrivono al meglio i tuoi dati.

Exercise 1: Parametri ottimali Exercise 2: Quanto spesso si verificano i no-hitter?Exercise 3: I dati seguono la nostra storia?Exercise 4: In che senso questo parametro è ottimale?Exercise 5: Regressione lineare con minimi quadrati Exercise 6: EDA su alfabetizzazione/fertilità Exercise 7: Regressione lineare

Esercizio attuale

Exercise 8: Quanto è ottimale?Exercise 9: L'importanza dell'EDA: il quartetto di Anscombe Exercise 10: L'importanza dell'EDA Exercise 11: Regressione lineare sui dati appropriati di Anscombe Exercise 12: Regressione lineare su tutti i dati di Anscombe

“Tirarsi su per i lacci degli stivali” è un modo di dire classico che indica il riuscire in un compito difficile da soli, senza alcun aiuto. Nell’inferenza statistica, vuoi sapere cosa succederebbe se potessi ripetere l’acquisizione dei dati un numero infinito di volte. Questo è impossibile, ma possiamo usare solo i dati che abbiamo per avvicinarci al risultato che otterremmo con infiniti esperimenti? La risposta è sì! La tecnica per farlo si chiama, a ragione, bootstrapping. Questo capitolo ti introdurrà a questo strumento straordinariamente potente.

Exercise 1: Generare repliche bootstrap Exercise 2: Fissiamo la terminologia Exercise 3: Bootstrap a mano Exercise 4: Visualizzare i campioni bootstrap Exercise 5: Intervalli di confidenza bootstrap Exercise 6: Generare molti replicati bootstrap Exercise 7: Bootstrap replicates della media e del SEM Exercise 8: Intervalli di confidenza dei dati sulle precipitazioni Exercise 9: Repliche bootstrap di altre statistiche Exercise 10: Intervallo di confidenza sul tasso di no-hitter Exercise 11: Bootstrap a coppie Exercise 12: Una funzione per fare pairs bootstrap Exercise 13: Pairs bootstrap su dati di analfabetismo/fertilità Exercise 14: Tracciare regressioni bootstrap

Ora sai come definire e stimare i parametri dato un modello. Ma resta la domanda: quanto è ragionevole osservare i tuoi dati se un modello è vero? A questa domanda rispondono i test d’ipotesi. Sono la ciliegina sulla torta dell’inferenza. Dopo aver completato questo capitolo, sarai in grado di costruire e testare con cura ipotesi usando le hacker statistics.

Exercise 1: Formulare e simulare un'ipotesi Exercise 2: Generare un campione di permutazione Exercise 3: Visualizzare il campionamento per permutazione Exercise 4: Statistiche di test e p-value Exercise 5: Statistiche test Exercise 6: Che cos’è un p-value?Exercise 7: Generare repliche di permutazione Exercise 8: Guarda prima di saltare: EDA prima dei test d'ipotesi Exercise 9: Test di permutazione sui dati delle rane Exercise 10: Test di ipotesi con bootstrap Exercise 11: Un test d’ipotesi bootstrap a un campione Exercise 12: Un test di ipotesi bootstrap a due campioni per la differenza tra medie

Come hai visto nel capitolo precedente, i test d’ipotesi possono essere un po’ insidiosi. Devi definire l’ipotesi nulla, capire come simularla e chiarire cosa significa “più estremo” per calcolare il p-value. Come per qualsiasi abilità, la pratica rende perfetti, e questo capitolo ti offre un’ottima palestra per esercitarti con i test d’ipotesi.

Exercise 1: Test A/B Exercise 2: Il voto sul Civil Rights Act del 1964 Exercise 3: Cosa è equivalente?Exercise 4: Un analogo del tempo sul sito web Exercise 5: Cosa avresti dovuto fare per primo?Exercise 6: Test di correlazione Exercise 7: Simulare un’ipotesi nulla sulla correlazione Exercise 8: Test d'ipotesi sulla correlazione di Pearson Exercise 9: I pesticidi neonicotinoidi hanno conseguenze indesiderate?Exercise 10: Test d'ipotesi bootstrap sui conteggi di spermatozoi delle api

Ogni anno, da oltre 40 anni, Peter e Rosemary Grant vanno sull’isola di Daphne Major, alle Galápagos, e raccolgono dati sui fringuelli di Darwin. Con le tue competenze di inferenza statistica, in questo capitolo lavorerai con i loro dati e vedrai in prima persona, attraverso i dati, l’evoluzione in azione. È un modo entusiasmante per concludere il corso!

Exercise 1: I becchi dei fringuelli e il bisogno della statistica Exercise 2: EDA sulle profondità del becco dei fringuelli di Darwin Exercise 3: ECDF delle profondità del becco Exercise 4: Stime dei parametri delle profondità del becco Exercise 5: Test d'ipotesi: i becchi sono più profondi nel 2012?Exercise 6: Variazione nelle forme del becco Exercise 7: EDA di lunghezza e profondità del becco Exercise 8: Regressioni lineari Exercise 9: Visualizzare i risultati della regressione lineare Exercise 10: Rapporto lunghezza/profondità del becco Exercise 11: Quanto è diverso il rapporto?Exercise 12: Calcolo dell'ereditarietà Exercise 13: EDA dell'ereditarietà Exercise 14: Correlazione tra discendenti e genitori Exercise 15: Correlazione di Pearson tra dati di prole e genitori Exercise 16: Misurare l’ereditarietà Exercise 17: La profondità del becco è ereditaria in G. scandens?Exercise 18: Considerazioni finali