1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rでのデータクリーニング

Connected

演習

ライド時間の制約

範囲外の値は分析結果をゆがめてしまうため、早い段階で見つけることが大切です。この演習では、duration_min 列を詳しく確認します。自転車は一度に 24時間(1440分)を超えて利用することはできませんが、一部の自転車では返却時刻の記録に不具合があり、正しく記録されていませんでした。

この演習では、誤ったデータを範囲の上限(1440分)に置き換えます。ただし、これらの値を NA に置き換える方法でも問題ありません。

dplyr、assertive、ggplot2 は読み込まれており、bike_share_rides が利用可能です。

指示1 / 2

undefined XP
    1
    2
  • 範囲外のデータがないか確認するため、ggplot2 を使って bike_share_rides の duration_min 列の三分割ヒストグラムを作成してください。