1. 学习
  2. /
  3. 课程
  4. /
  5. Rで学ぶ探索的データ分析

Connected

练习

スパムと!!!

もっとわかりやすいスパムの指標を見てみましょう。感嘆符です。exclaim_mess には各メッセージに含まれる感嘆符の数が入っています。要約統計量と可視化を使って、この変数とメッセージがスパムかどうかの間に関係があるかを確認しましょう。

最も有益な可視化が見つかるまで、さまざまな種類のプロットを試してみてください。これまでに見てきたものを思い出しましょう。

  • 並列の箱ひげ図
  • ファセット化したヒストグラム
  • 重ね合わせた密度プロット

说明

100 XP

email データセットは引き続きワークスペースで利用できます。

  • group_by() と summarize() を使って、スパムと非スパムそれぞれについて exclaim_mess の適切な代表値(中心)と散らばりを計算します。
  • 同じ2つの変数の関連を可視化するために、適切なプロットを作成し、必要であれば対数変換を加えます。
  • 対数変換を使う場合、R では log(0) は -Inf になり、あまり有用ではないことに注意してください。これを回避するには、log() 関数の中の値に小さな数(例えば 0.01)を足します。こうすれば値がゼロになることはありません。右にわずかにシフトしますが、結果には影響しません。