1. 学ぶ
  2. /
  3. コース
  4. /
  5. R で学ぶクレジットリスク・モデリング

Connected

演習

欠損データを保持する

ある状況では、入力が欠損しているという事実自体が重要な情報になることがあります。粗い分類(coarse classification)を使うと、NA を「missing」という独立したカテゴリにまとめて保持できます。

粗い分類を使うと、データを簡素化し、モデルの解釈性を高められます。粗い分類では、値の範囲を含むグループに応答をビン分割します。このビニング手法を使えば、すべての NA を専用のビンに入れられます。

動画では、勤続年数(employment length)を例に粗い分類の考え方を示しました。その例のコードは右側の R スクリプトに再掲してあり、int_rate 変数を粗い分類に適用するように書き換えられます。

指示

100 XP
  • 提供されたコードを必要な箇所だけ変更して、int_rate を粗い分類し、結果を新しい変数 ir_cat に保存してください。
    • まず、R スクリプト内の loan_data$emp_cat を出現箇所すべてで loan_data$ir_cat に、loan_data$emp_length を loan_data$int_rate に置き換えます。
    • 次に、変数を "0-8"、"8-11"、"11-13.5"、"13.5+" のカテゴリにビン分割します("0-15"、"15-30"、"30-45"、"45+" を置き換えます)。> と <= の使い方は動画とまったく同じです。条件文中の数値も忘れずに変更してください(15、30、45 をそれぞれ 8、11、13.5 に変更)。
  • 新しい変数 ir_cat を plot(loan_data$ir_cat) で確認しましょう。