ComeçarComece de graça

Ajuste um modelo de probabilidade de sobrevivência do pardal

Neste exercício, você vai estimar a probabilidade de um pardal sobreviver a uma tempestade de inverno severa, com base em suas características físicas. O conjunto de dados sparrow já foi carregado. O desfecho a ser previsto é status ("Survived", "Perished"). As variáveis que vamos considerar são:

  • total_length: comprimento da ave da ponta do bico à ponta da cauda (mm)
  • weight: em gramas
  • humerus: comprimento do úmero ("osso do braço" que conecta a asa ao corpo) (polegadas)

Lembre-se de que, ao usar glm() (docs) para criar um modelo de regressão logística, você deve especificar explicitamente family = binomial:

glm(formula, data = data, family = binomial)

Você vai chamar summary() e broom::glance() para ver diferentes funções para examinar um modelo de regressão logística. Um dos diagnósticos que você vai analisar é o análogo ao \(R^2\), chamado de pseudo-\(R^2\).

$$ pseudoR^2 = 1 - \frac{deviance}{null.deviance} $$

Você pode pensar na deviance como análoga à variância: é uma medida da variação em dados categóricos. O pseudo-\(R^2\) é análogo ao \(R^2\) na regressão padrão: o \(R^2\) é uma medida da "variância explicada" de um modelo de regressão. O pseudo-\(R^2\) é uma medida da "deviance explicada".

Este exercício faz parte do curso

Aprendizado Supervisionado em R: Regressão

Ver curso

Instruções do exercício

  • Como sugerido no vídeo, você vai prever os resultados TRUE e FALSE. Crie uma nova coluna survived no data frame sparrow que seja TRUE quando status == "Survived".
  • Crie a fórmula fmla que expressa survived como função das variáveis de interesse. Imprima-a.
  • Ajuste um modelo de regressão logística para prever a probabilidade de sobrevivência do pardal. Atribua o modelo à variável sparrow_model.
  • Chame summary() para ver os coeficientes do modelo, a deviance e a null deviance.
  • Chame glance() no modelo para ver as deviances e outros diagnósticos em um data frame. Atribua a saída de glance() à variável perf.
  • Calcule o pseudo-\(R^2\).

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# sparrow is available
summary(sparrow)

# Create the survived column
sparrow$survived <- ___

# Create the formula
(fmla <- _____)

# Fit the logistic regression model
sparrow_model <- ___

# Call summary
___

# Call glance
(perf <- ___)

# Calculate pseudo-R-squared
(pseudoR2 <- ___)
Editar e executar o código