Creare training e test set
Hai appena addestrato dei modelli LogisticRegression() su colonne diverse.
Sai che i dati vanno separati in training e test set. test_train_split() si usa per creare entrambi allo stesso tempo. Il training set serve per addestrare il modello, mentre il test set serve per la valutazione. Senza valutare il modello, non hai modo di capire quanto bene si comporterà su nuovi dati di prestito.
Oltre a intercept_, che è un attributo del modello, i modelli LogisticRegression() hanno anche l'attributo .coef_. Questo mostra quanto sia importante ciascuna colonna di training per prevedere la probabilità di default.
L'insieme di dati cr_loan_clean è già caricato nell'ambiente di lavoro.
Questo esercizio fa parte del corso
Credit Risk Modeling in Python
Istruzioni dell'esercizio
- Crea l'insieme di dati
Xusando tasso di interesse, anzianità lavorativa e reddito. Crea l'insiemeyusando lo stato del prestito. - Usa
train_test_split()per creare i training e test set a partire daXey. - Crea e addestra un modello
LogisticRegression()e salvalo comeclf_logistic. - Stampa i coefficienti del modello usando
.coef_.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create the X and y data sets
X = ____[[____,____,____]]
y = ____[[____]]
# Use test_train_split to create the training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, test_size=.4, random_state=123)
# Create and fit the logistic regression model
____ = ____(solver='lbfgs').____(____, np.ravel(____))
# Print the models coefficients
print(____.coef_)