1. 学ぶ
  2. /
  3. コース
  4. /
  5. R による可視化ベストプラクティス

Connected

演習

大量データでのKDE

用意されたコードは、すべての違反切符(citations)に対する percentage_over_limit の基本的なKDEを作成します。ぱっと見は妥当な設定に見えます。データ量が多いのでビン幅を細かく、1パーセントに設定しています。さらに、配慮されてラグプロットが追加されており、その alpha は 0.7 に下げられています。

しかし実行してみると、良いプロットではないことがすぐにわかります。密度推定はヤマアラシのようにギザギザで、ラグプロットは大量の重なりのせいで実質的に太い黒い帯になってしまいます。

これを改善するため、ビン幅(カーネルの幅)を少し広げて 2.5 にし、ラグプロットの alpha は重なり具合がわかるよう 0.05 に下げてください。カーネル幅の変更がわかるよう、サブタイトルも忘れずに更新しましょう。

指示

100 XP
  • カーネルの標準偏差を 2.5 に変更する
  • ラグプロットの alpha を 0.05 に設定する
  • 新しいカーネル幅を反映するように、subtitle を "Gaussian kernel SD = 2.5" に変更する