1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶ探索的データ分析

Connected

演習

Spam と num_char

スパムとメールの長さには関連がありますか?どちらの可能性も考えられます。

  • スパムは、リンクをクリックさせるための短いメッセージになりがち
  • 普段のメールは、友人とのやり取りが短文中心なのでむしろ短いかもしれない

ここでは、email データセットを使ってこの疑問を検証します。まず ?email でヘルプを表示し、すべての変数について確認してください。

スパムとメールの長さの関連を探るにあたり、dplyr のチェーンを ggplot2 のレイヤーにそのままつなぐやり方も試してみましょう。

指示

100 XP

email データセットを使って、次を行ってください。

  • パッケージ ggplot2、dplyr、openintro を読み込みます。
  • group_by() と summarize() を使い、スパムか否かそれぞれについて num_char の適切な代表値とばらつきを計算します。summarize() が作る新しい列名は付け直す必要はありません。
  • 同じ2変数の関連を可視化するため、並べたボックスプロットを作成します。num_char を対数変換した新しい列を mutate() で作っておくと便利です。