IniziaInizia gratis

Esplorare i dati di credito

Nel corso degli esercizi useremo l'insieme di dati loan_data presentato nel video.

Dopo aver ricevuto loan_data, sei particolarmente interessato ai prestiti in default. Vuoi farti un’idea del numero e della percentuale di default. I default sono rari, quindi conviene sempre verificare quale sia la loro proporzione in un insieme di dati sui prestiti. La funzione CrossTable() è molto utile qui.

Ricorda che l’informazione sul default è memorizzata nella variabile di risposta loan_status, dove 1 rappresenta un default e 0 un non-default.

Per capire meglio la struttura delle variabili e individuare eventuali andamenti inattesi, dovresti esaminare la relazione tra loan_status e alcune variabili di tipo factor. Ad esempio, ti aspetteresti che la proporzione di default nel gruppo di clienti con grade G (punteggio di affidabilità creditizia peggiore) sia sostanzialmente più alta rispetto alla proporzione di default nel gruppo grade A (punteggio migliore).

Comodamente, CrossTable() può essere applicata anche a due variabili categoriche. Esploriamo!

Questo esercizio fa parte del corso

Credit Risk Modeling in R

Visualizza il corso

Istruzioni dell'esercizio

  • Prendi confidenza con l’insieme di dati osservandone la struttura con str().
  • Carica il pacchetto gmodels usando library(). È già installato sui server di DataCamp.
  • Dai un’occhiata alla CrossTable() dello stato del prestito, usando un solo argomento: loan_data$loan_status.
  • Chiama CrossTable() con argomento x uguale a loan_data$grade e argomento y uguale a loan_data$loan_status. Vogliamo solo le proporzioni per riga, quindi imposta prop.r su TRUE, ma prop.c, prop.t e prop.chisq su FALSE (i valori predefiniti qui sono TRUE, e questo includerebbe le proporzioni per colonna, le proporzioni sull’intera tabella e i contributi chi-quadro per ogni cella. Non ci servono in questo caso).

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# View the structure of loan_data


# Load the gmodels package 


# Call CrossTable() on loan_status


# Call CrossTable() on grade and loan_status

Modifica ed esegui il codice