Più variabili in un modello di regressione logistica
L’interpretazione di un singolo parametro rimane valida anche quando includi più variabili in un modello. Quando includi più variabili e chiedi l’interpretazione al variare di una certa variabile, si assume che le altre restino costanti, o invariate. C’è una celebre locuzione latina per questo, ceteris paribus, che significa letteralmente "mantenendo invariate le altre cose".
Per costruire un modello di regressione logistica con più variabili, puoi usare il segno + per aggiungerle. La tua formula avrà un aspetto simile a:
y ~ x1 + ... + xk
Per valutare il modello ci sono diversi aspetti da considerare. Hai già esaminato i valori dei parametri, ma non è l’unica cosa importante. È fondamentale anche la significatività statistica di una certa stima del parametro. La significatività di un parametro è spesso indicata come p-value, tuttavia nell’output del modello la vedrai come Pr(>|t|). In glm, una significatività lieve è indicata da un "." fino a una significatività molto forte indicata da "***". Quando un parametro non è significativo, significa che non puoi affermare che sia significativamente diverso da 0. La significatività statistica è importante: in generale, ha senso interpretare l’effetto sul default solo per i parametri significativi.
Questo esercizio fa parte del corso
Credit Risk Modeling in R
Istruzioni dell'esercizio
- Crea un modello di regressione logistica usando la funzione
glm()e iltraining_set. Includi le variabiliage,ir_cat,grade,loan_amnteannual_inc. Chiama questo modellolog_model_multi. - Ottieni i livelli di significatività usando
summary()in combinazione con il modello. Approfondirai cosa significano i livelli di significatività nel prossimo esercizio!
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Build the logistic regression model
# Obtain significance levels using summary()