1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rでの欠損データの扱い方

Connected

演習

シャドウ行列データの作成

欠損データは扱いが難しいことがあります。多くの場合、はっきり目立つわけではなく、データの草むらに紛れ込んでいるからです。

欠損値を見つけやすくする一つの方法は、データの見方を変えることです。すべての値について、「欠損しているか、していないか」という視点で考えます。

R の as_shadow() 関数は、データフレームをシャドウ行列に変換します。これは、各値が欠損(NA)か非欠損(!NA)かで表される特別なデータ形式です。

シャドウ行列の列名は元データと同じですが、末尾にサフィックス _NA が付きます。

データの値とその欠損状態を対応づけて追跡・比較するには、bind_shadow() 関数を使います。通常のデータにシャドウ行列の列を結合したこの形式は、nabular データと呼ばれます。

指示

100 XP

oceanbuoys データセットを使って、次を行ってください。

  • as_shadow() でシャドウ行列データを作成する
  • bind_shadow() でシャドウを元データに結合して nabular データを作成する
  • bind_shadow(only_miss = TRUE) を使って、欠損がある変数だけを結合する