Regressão linear

Vamos supor que a taxa de fertilidade é uma função linear da taxa de analfabetismo feminino. Ou seja, \(f = a i + b\), em que \(a\) é a inclinação (slope) e \(b\) é a interceptação (intercept). Podemos pensar na interceptação como a taxa mínima de fertilidade, provavelmente entre um e dois. A inclinação nos diz como a taxa de fertilidade varia com o analfabetismo. Podemos encontrar a reta de melhor ajuste usando np.polyfit().

Trace os dados e a reta de melhor ajuste. Imprima a inclinação e a interceptação. (Pense: quais são as unidades?)

Este exercicio faz parte do curso

Pensamento Estatístico em Python (Parte 2)

Instruções do exercicio

Calcule a inclinação e a interceptação da linha de regressão usando np.polyfit(). Lembre-se: fertility está no eixo y e illiteracy no eixo x.
Imprima a inclinação e a interceptação da regressão linear.
Para traçar a reta de melhor ajuste, crie um array x que contenha 0 e 100 usando np.array(). Depois, calcule os valores teóricos de y com base nos parâmetros da regressão, isto é, y = a * x + b.
Plote os dados e a linha de regressão no mesmo gráfico. Não se esqueça de rotular os eixos.
Clique em Enviar para exibir seu gráfico.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Plot the illiteracy rate versus fertility
_ = plt.plot(illiteracy, fertility, marker='.', linestyle='none')
plt.margins(0.02)
_ = plt.xlabel('percent illiterate')
_ = plt.ylabel('fertility')

# Perform a linear regression using np.polyfit(): a, b
a, b = ____

# Print the results to the screen
print('slope =', a, 'children per woman / percent illiterate')
print('intercept =', b, 'children per woman')

# Make theoretical line to plot
x = ____
y = ____ * ____ + ____

# Add regression line to your plot
_ = plt.plot(____, ____)

# Draw the plot
plt.show()

Editar e Executar Código

Este exercicio faz parte do curso

Pensamento Estatístico em Python (Parte 2)

IntermediárioNível de habilidade

4.8+

Comece o curso gratuitamente

Ao fazer inferência estatística, falamos a linguagem da probabilidade. Uma distribuição de probabilidade que descreve seus dados tem parâmetros. Assim, um objetivo central da inferência estatística é estimar os valores desses parâmetros, o que nos permite descrever os dados de forma concisa e inequívoca e tirar conclusões a partir deles. Neste capítulo, você vai aprender a encontrar os parâmetros ótimos, aqueles que melhor descrevem seus dados.

Exercise 1: Parâmetros ótimos Exercise 2: Com que frequência temos no-hitters?Exercise 3: Os dados seguem a nossa história?Exercise 4: Por que esse parâmetro é ótimo?Exercise 5: Regressão linear por mínimos quadrados Exercise 6: EDA de dados de alfabetização/fertilidade Exercise 7: Regressão linear

Exercicio Atual

Exercise 8: Como isso é ótimo?Exercise 9: A importância da EDA: quarteto de Anscombe Exercise 10: A importância da EDA Exercise 11: Regressão linear nos dados apropriados de Anscombe Exercise 12: Regressão linear em todos os dados de Anscombe

“Pull yourself up by your bootstraps” é um idiom clássico que significa realizar uma tarefa difícil por conta própria, sem ajuda alguma. Em inferência estatística, você quer saber o que aconteceria se pudesse repetir a aquisição dos seus dados um número infinito de vezes. Essa tarefa é impossível, mas será que podemos usar apenas os dados que realmente temos para chegar perto do mesmo resultado de uma infinidade de experimentos? A resposta é sim! A técnica para fazer isso é, apropriadamente, chamada de bootstrapping. Este capítulo vai apresentar a você essa ferramenta extraordinariamente poderosa.

Exercise 1: Gerando réplicas de bootstrap Exercise 2: Acertando a terminologia Exercise 3: Bootstrap na mão Exercise 4: Visualizando amostras bootstrap Exercise 5: Intervalos de confiança por bootstrap Exercise 6: Gerando muitos replicados bootstrap Exercise 7: Réplicas bootstrap da média e o SEM Exercise 8: Intervalos de confiança dos dados de precipitação Exercise 9: Réplicas bootstrap de outras estatísticas Exercise 10: Intervalo de confiança para a taxa de no-hitters Exercise 11: Bootstrap por pares Exercise 12: Uma função para fazer pairs bootstrap Exercise 13: Bootstrap em pares com dados de alfabetização/fertilidade Exercise 14: Plotando regressões bootstrap

Agora você sabe como definir e estimar parâmetros dado um modelo. Mas permanece a pergunta: quão razoável é observar seus dados se um modelo for verdadeiro? Essa questão é respondida por testes de hipóteses. Eles são a cereja do bolo da inferência. Depois de concluir este capítulo, você será capaz de construir e testar hipóteses com cuidado usando hacker statistics.

Exercise 1: Formulando e simulando uma hipótese Exercise 2: Gerando uma amostra por permutação Exercise 3: Visualizando amostragem por permutação Exercise 4: Estatísticas de teste e valores de p Exercise 5: Estatísticas de teste Exercise 6: O que é um p-valor?Exercise 7: Gerando réplicas de permutação Exercise 8: Olhe antes de saltar: EDA antes do teste de hipóteses Exercise 9: Teste de permutação com dados de sapos Exercise 10: Testes de hipótese com bootstrap Exercise 11: Um teste de hipótese bootstrap de uma amostra Exercise 12: Um teste de hipótese bootstrap de duas amostras para diferença de médias

Como você viu no capítulo anterior, testes de hipóteses podem ser um pouco complexos. Você precisa definir a hipótese nula, descobrir como simulá-la e definir claramente o que significa ser “mais extremo” para calcular o valor de p. Como qualquer habilidade, a prática leva à perfeição, e este capítulo oferece uma boa dose de treino com testes de hipóteses.

Exercise 1: Teste A/B Exercise 2: A votação da Lei dos Direitos Civis em 1964 Exercise 3: O que é equivalente?Exercise 4: Um análogo de tempo no site Exercise 5: O que você deveria ter feito primeiro?Exercise 6: Teste de correlação Exercise 7: Simulando uma hipótese nula sobre correlação Exercise 8: Teste de hipótese para correlação de Pearson Exercise 9: Inseticidas neonicotinóides têm consequências inesperadas?Exercise 10: Teste de hipótese com bootstrap em contagens de esperma de abelhas

Todos os anos, há mais de 40 anos, Peter e Rosemary Grant vão à ilha Daphne Major, nas Galápagos, e coletam dados sobre os tentilhões de Darwin. Usando suas habilidades de inferência estatística, você vai passar este capítulo com os dados deles e observar em primeira mão, por meio dos dados, a evolução em ação. É uma maneira empolgante de encerrar o curso!

Exercise 1: Bicos de tentilhões e a necessidade de estatística Exercise 2: EDA das profundidades de bicos dos tentilhões de Darwin Exercise 3: ECDFs das profundidades de bico Exercise 4: Estimativas de parâmetros de profundidade do bico Exercise 5: Teste de hipótese: os bicos são mais profundos em 2012?Exercise 6: Variação nos formatos de bico Exercise 7: EDA do comprimento e da profundidade do bico Exercise 8: Regressões lineares Exercise 9: Exibindo os resultados da regressão linear Exercise 10: Razão entre comprimento e profundidade do bico Exercise 11: Quão diferente é a razão?Exercise 12: Cálculo da herdabilidade Exercise 13: EDA de herdabilidade Exercise 14: Correlação entre dados de filhotes e pais Exercise 15: Correlação de Pearson entre descendentes e pais Exercise 16: Medindo a herdabilidade Exercise 17: A profundidade do bico é herdável em G. scandens?Exercise 18: Considerações finais