1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶ探索的データ分析

Connected

演習

散らばりの指標を計算する

強力な group_by() と summarize() の構文を、分散の指標にも広げてみましょう。分布が対称か歪んでいるか迷う場合は、分散や標準偏差のような一般的な指標に加えて、IQR のようなロバストな指標も検討するとよいです。

指示

100 XP

以前の演習で作成した gap2007 データセットがワークスペースに用意されています。

  • gap2007 の各大陸ごとに、sd()、IQR()、そして国数のカウント n() を使って、平均寿命を要約してください。ここで生成される新しい列に名前を付ける必要はありません。summarize() 内で使う n() 関数には引数は不要です。
  • 大陸別に分けた平均寿命の密度プロットを重ね描きし、これらの分布の散らばりを視覚的に比較してください。