Explorando os dados de crédito
Vamos analisar o conjunto de dados loan_data mencionado no vídeo ao longo dos exercícios deste curso.
Dado o loan_data, você está particularmente interessado nos empréstimos inadimplentes no conjunto de dados. Você quer ter uma ideia do número e do percentual de inadimplências. Inadimplências são raras, então você sempre deve verificar qual é a proporção de inadimplências em um conjunto de dados de empréstimos. A função CrossTable() é muito útil aqui.
Lembre-se de que a informação de inadimplência está armazenada na variável resposta loan_status, em que 1 representa default e 0 representa non-default.
Para entender melhor as estruturas das variáveis e identificar tendências inesperadas nos dados, você deve examinar a relação entre loan_status e certas variáveis do tipo factor. Por exemplo, você esperaria que a proporção de inadimplências no grupo de clientes com grade G (pior pontuação de classificação de crédito) seja substancialmente maior do que a proporção de inadimplências no grupo grade A (melhor pontuação de classificação de crédito).
Convenientemente, CrossTable() também pode ser aplicada a duas variáveis categóricas. Vamos explorar!
Este exercício faz parte do curso
Modelagem de Risco de Crédito em R
Instruções do exercício
- Familiarize-se com o conjunto de dados olhando sua estrutura com
str(). - Carregue o pacote gmodels usando
library(). Ele já está instalado nos servidores da DataCamp. - Dê uma olhada no
CrossTable()do status do empréstimo, usando apenas um argumento:loan_data$loan_status. - Chame
CrossTable()com o argumentoxcomoloan_data$gradee o argumentoycomoloan_data$loan_status. Queremos apenas proporções por linha, então definaprop.rcomoTRUE, masprop.c,prop.teprop.chisqcomoFALSE(os valores padrão aqui sãoTRUE, o que incluiria proporções por coluna, proporções da tabela e contribuições do qui-quadrado para cada célula. Não precisamos disso agora.)
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# View the structure of loan_data
# Load the gmodels package
# Call CrossTable() on loan_status
# Call CrossTable() on grade and loan_status