1. Learn
  2. /
  3. Courses
  4. /
  5. Rでのデータクリーニング

Connected

Exercise

部分的な重複の集約

部分的な重複を扱う別の方法として、重複間で異なる値について、平均、中央値、最大値、最小値といった要約統計量を計算する方法があります。データの収集方法が不明で平均を取りたい場合や、ドメイン知識に基づいて過小評価よりも過大評価(またはその逆)を選びたい場合に便利です。

dplyr は読み込まれており、bike_share_rides が利用可能です。

Instructions

100 XP
  • bike_share_rides を ride_id と date でグループ化します。
  • 各行の ride_id と date に対する平均の走行時間を格納する duration_min_avg 列を追加します。
  • ride_id と date に基づいて重複を削除し、データフレームのすべての列を保持します。
  • duration_min 列を削除します。