1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Rでのデータクリーニング

Connected

Exercise

完全重複

バイクシェアのデータパイプラインをより効率化する更新が行われましたが、その結果として重複が発生しやすくなったと通知されました。毎週の走行統計の分析で同じスクリプトを引き続き使えるようにするため、まずはデータセット内の重複を必ず取り除く必要があります。

データフレームの複数行がすべての列で同じ値を持つ場合、それらは互いに「完全重複」です。このような重複を削除することは重要です。同じ値が複数回現れると、平均値や中央値などの要約統計量が歪む可能性があるからです。各ライドは ride_id を含めて一意であるべきです。

dplyr は読み込まれており、bike_share_rides が利用可能です。

Instrukcje

100 XP
  • bike_share_rides に含まれる完全重複の総数を取得します。
  • bike_share_rides からすべての完全重複を削除し、新しいデータフレームを bike_share_rides_unique として保存します。
  • 新しいデータフレーム bike_share_rides_unique に含まれる完全重複の総数を取得します。