1. 学ぶ
  2. /
  3. コース
  4. /
  5. R で学ぶクレジットリスク・モデリング

Connected

演習

信用データを探索する

このコースの演習を通して、動画で説明したデータセット loan_data を扱います。

loan_data を渡されたら、まずはデフォルト(延滞/不履行)になったローンに注目したいところです。デフォルト件数と比率を把握しましょう。デフォルトは稀なので、ローンデータでは常にその比率を確認します。ここでは CrossTable() 関数がとても役立ちます。

デフォルト情報は目的変数 loan_status に格納されており、1 が default、0 が non-default を表します。

変数の構造を理解し、思いがけない傾向がないか確認するには、loan_status といくつかの factor 変数との関係を調べるとよいでしょう。たとえば、grade G(最悪の信用格付け)の顧客グループでは、grade A(最良の信用格付け)グループよりもデフォルト比率が大幅に高いと予想されます。

便利なことに、CrossTable() は2つのカテゴリ変数にも適用できます。さっそく確かめてみましょう!

指示

100 XP
  • str() を使ってデータ構造を確認し、データセットに慣れましょう。
  • library() で gmodels パッケージを読み込みます。これは DataCamp のサーバーにすでにインストールされています。
  • 引数を1つだけ渡して、loan_data$loan_status の CrossTable() を確認します。
  • x に loan_data$grade、y に loan_data$loan_status を指定して CrossTable() を呼び出します。行方向の比率だけが必要なので、prop.r を TRUE にし、prop.c、prop.t、prop.chisq は FALSE に設定します(これらのデフォルトは TRUE で、列比率、全体比率、各セルのカイ二乗寄与が含まれてしまいます。ここでは不要です)。