신용 데이터 탐색하기

이 강의 내 연습 전반에서 영상에서 다룬 loan_data 데이터셋을 살펴보겠습니다.

loan_data가 주어지면, 특히 부도(default)가 난 대출에 관심이 생기죠. 부도 건수와 비율이 어느 정도인지 파악하고 싶어요. 부도는 드물기 때문에, 대출 데이터셋에서는 항상 부도 비율을 확인하는 것이 중요해요. 이때 CrossTable() 함수가 매우 유용합니다.

부도 정보는 반응 변수 loan_status에 저장되어 있고, 1은 default(부도), 0은 non-default(정상 상환)를 의미합니다.

변수 구조를 더 잘 이해하고 데이터에서 예상 밖의 경향을 발견하려면, loan_status와 몇몇 factor 변수 간의 관계를 살펴보세요. 예를 들어, grade가 G(최악의 신용등급)인 고객 집단의 부도 비율이 grade A(최고 신용등급) 집단의 부도 비율보다 상당히 높을 것이라고 기대할 수 있습니다.

마침 CrossTable()은 두 개의 범주형 변수에도 적용할 수 있어요. 함께 살펴봅시다!

str()로 데이터셋의 구조를 확인해 익숙해지세요.
library()로 gmodels 패키지를 로드하세요. 이미 DataCamp 서버에 설치되어 있어요.
CrossTable()을 한 개의 인수만 사용해 실행해 보세요: loan_data$loan_status.
CrossTable()을 호출할 때 x에는 loan_data$grade, y에는 loan_data$loan_status를 지정하세요. 행 비율만 원하므로 prop.r은 TRUE로, prop.c, prop.t, prop.chisq는 FALSE로 설정하세요(이들의 기본값은 TRUE라서 열 비율, 전체 테이블 비율, 각 셀의 chi-square 기여도가 포함됩니다. 여기서는 필요하지 않아요).

연습 문제

신용 데이터 탐색하기

지침

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제