1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rでの欠損データの扱い方

Connected

演習

欠損のその他の要約

欠損の要約には、データの種類によって特に役立つものがあります。たとえば、miss_var_span() と miss_var_run() です。

  • miss_var_span() は、指定した変数について、一定のスパンごとに欠損値の数を計算します。これは時系列データで、週(7日)ごとの欠損パターンを探すのにとても有用です。

  • miss_var_run() は、欠損が連続する「連なり(run)」や「連続区間(streak)」の数を計算します。たとえば「完全なデータが5つ続き、その後に欠損が5つ続く」といった、通常と異なる欠損パターンを見つけるのに役立ちます。

miss_var_span() と miss_var_run() はどちらも、dplyr の group_by 演算子と組み合わせて使えます。

指示

100 XP

naniar の pedestrian データセットを使って、次を行ってください。

  • miss_var_span() を使い、スパンを 4000 として、データセット内の変数に対する欠損の要約を計算します。
  • miss_var_run() を使い、データセット内のケースに対する欠損の要約を計算します。
  • dplyr の group_by 演算子を使い、month でグループ化します。