Costruire semplici modelli di regressione logistica
Il dataset donors contiene 93.462 esempi di persone a cui è stata inviata per posta una richiesta di raccolta fondi a favore di veterani militari paralizzati. La colonna donated vale 1 se la persona ha fatto una donazione in risposta alla lettera, altrimenti 0. Questo esito binario sarà la variabile dipendente del modello di regressione logistica.
Le restanti colonne sono caratteristiche dei potenziali donatori che possono influenzare il loro comportamento di donazione. Queste sono le variabili indipendenti del modello.
Quando si costruisce un modello di regressione, spesso è utile formulare un'ipotesi su quali variabili indipendenti saranno predittive della variabile dipendente. La colonna bad_address, impostata a 1 per un indirizzo postale non valido e a 0 altrimenti, sembra poter ridurre le probabilità di una donazione. Allo stesso modo, si può sospettare che l'interesse religioso (interest_religion) e l'interesse per i veterani (interest_veterans) siano associati a una maggiore propensione al dono.
In questo esercizio userai questi tre fattori per creare un semplice modello del comportamento di donazione. Il dataset donors è a tua disposizione.
Questo esercizio fa parte del corso
Apprendimento supervisionato in R: Classificazione
Istruzioni dell'esercizio
- Esamina
donorsusando la funzionestr(). - Conta il numero di occorrenze di ciascun livello della variabile
donatedusando la funzionetable(). - Stima un modello di regressione logistica usando l'interfaccia a formula con le tre variabili indipendenti descritte in precedenza.
- Chiama
glm()con la formula come primo argomento e il data frame come argomentodata. - Salva il risultato come
donation_model.
- Chiama
- Riassumi l'oggetto modello con
summary().
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Examine the dataset to identify potential independent variables
# Explore the dependent variable
# Build the donation model
donation_model <- glm(___,
data = ___, family = "___")
# Summarize the model results