信用データを探索する

このコースの演習を通して、動画で説明したデータセット loan_data を扱います。

loan_data を渡されたら、まずはデフォルト（延滞/不履行）になったローンに注目したいところです。デフォルト件数と比率を把握しましょう。デフォルトは稀なので、ローンデータでは常にその比率を確認します。ここでは CrossTable() 関数がとても役立ちます。

デフォルト情報は目的変数 loan_status に格納されており、1 が default、0 が non-default を表します。

変数の構造を理解し、思いがけない傾向がないか確認するには、loan_status といくつかの factor 変数との関係を調べるとよいでしょう。たとえば、grade G（最悪の信用格付け）の顧客グループでは、grade A（最良の信用格付け）グループよりもデフォルト比率が大幅に高いと予想されます。

便利なことに、CrossTable() は2つのカテゴリ変数にも適用できます。さっそく確かめてみましょう！

str() を使ってデータ構造を確認し、データセットに慣れましょう。
library() で gmodels パッケージを読み込みます。これは DataCamp のサーバーにすでにインストールされています。
引数を1つだけ渡して、loan_data$loan_status の CrossTable() を確認します。
x に loan_data$grade、y に loan_data$loan_status を指定して CrossTable() を呼び出します。行方向の比率だけが必要なので、prop.r を TRUE にし、prop.c、prop.t、prop.chisq は FALSE に設定します（これらのデフォルトは TRUE で、列比率、全体比率、各セルのカイ二乗寄与が含まれてしまいます。ここでは不要です）。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習