Crear modelos sencillos de regresión logística
El conjunto de datos donors contiene 93.462 ejemplos de personas a las que se les envió por correo una solicitud de donación para veteranos militares con parálisis. La columna donated vale 1 si la persona hizo una donación en respuesta al envío y 0 en caso contrario. Este resultado binario será la variable dependiente del modelo de regresión logística.
Las columnas restantes son características de los donantes potenciales que pueden influir en su comportamiento de donación. Estas serán las variables independientes del modelo.
Al crear un modelo de regresión, a menudo ayuda formular una hipótesis sobre qué variables independientes serán predictivas de la variable dependiente. La columna bad_address, que toma el valor 1 para una dirección postal no válida y 0 en caso contrario, parece que podría reducir las probabilidades de donación. Del mismo modo, se podría sospechar que el interés religioso (interest_religion) y el interés en asuntos de veteranos (interest_veterans) estén asociados con una mayor donación a obras benéficas.
En este ejercicio, usarás estos tres factores para crear un modelo sencillo del comportamiento de donación. El conjunto donors está disponible para que lo utilices.
Este ejercicio forma parte del curso
Aprendizaje supervisado en R: Clasificación
Instrucciones del ejercicio
- Examina
donorsusando la funciónstr(). - Cuenta el número de ocurrencias de cada nivel de la variable
donatedusando la funcióntable(). - Ajusta un modelo de regresión logística usando la interfaz de fórmula con las tres variables independientes descritas antes.
- Llama a
glm()con la fórmula como primer argumento y el data frame como argumentodata. - Guarda el resultado como
donation_model.
- Llama a
- Resume el objeto del modelo con
summary().
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Examine the dataset to identify potential independent variables
# Explore the dependent variable
# Build the donation model
donation_model <- glm(___,
data = ___, family = "___")
# Summarize the model results