1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータクリーニング

Connected

演習

重複の検出

ride_sharing に取り込まれるデータパイプラインに新しい更新があり、各乗車を一意に識別する ride_id 列が追加されました。

しかし、この更新と同時に、平均乗車時間が極端に短くなり、未来の日付になっている不規則なユーザー生年が見つかりました。さらに重要なことに、乗車回数が一晩で 20% 増加しており、ride_sharing DataFrame に完全な重複と不完全な重複の両方が存在するのではないかと疑われます。

この演習では、実際にそれらの重複を見つけて、この疑いを確認します。ride_sharing のサンプルと、これまで使用してきたすべてのパッケージは環境に用意されています。

指示

100 XP
  • keep を False に設定して、ride_sharing DataFrame の ride_id に重複がある行を見つけてください。
  • duplicates で ride_sharing をサブセットし、ride_id で並べ替えて、結果を duplicated_rides に代入します。
  • duplicated_rides から ride_id、duration、user_birth_year の各列をこの順で表示してください。