完全重複

バイクシェアのデータパイプラインをより効率化する更新が行われましたが、その結果として重複が発生しやすくなったと通知されました。毎週の走行統計の分析で同じスクリプトを引き続き使えるようにするため、まずはデータセット内の重複を必ず取り除く必要があります。

データフレームの複数行がすべての列で同じ値を持つ場合、それらは互いに「完全重複」です。このような重複を削除することは重要です。同じ値が複数回現れると、平均値や中央値などの要約統計量が歪む可能性があるからです。各ライドは ride_id を含めて一意であるべきです。

dplyr は読み込まれており、bike_share_rides が利用可能です。