1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶ探索的データ分析

Connected

演習

水準をまとめる

exclaim_mess の強い偏りに扱いづらさを感じたとすれば、各メールに添付された画像の数(image)はさらに手強い変数です。分布の様子をつかむため、コンソールで次のコードを実行してください。

table(email$image)

これは各カテゴリの件数を集計する関数でしたね(たとえば画像が0枚のメールが3811通あった、という意味です)。画像枚数が多い側の件数が非常に少ないため、image を「1枚以上の画像があるかどうか」を示すカテゴリ変数にまとめましょう。この演習では、新しい変数を作成し、spam との関連を調べます。

指示

100 XP

email から開始し、次のタスクを連続したパイプでつなげて実行してください。

  • has_image という新しい変数を作成します。画像の枚数が 0 より大きければ TRUE、それ以外は FALSE にします。
  • email を用いて has_image と spam の関係を可視化する適切なプロットを作成します。