重複の検出

ride_sharing に取り込まれるデータパイプラインに新しい更新があり、各乗車を一意に識別する ride_id 列が追加されました。

しかし、この更新と同時に、平均乗車時間が極端に短くなり、未来の日付になっている不規則なユーザー生年が見つかりました。さらに重要なことに、乗車回数が一晩で 20% 増加しており、ride_sharing DataFrame に完全な重複と不完全な重複の両方が存在するのではないかと疑われます。

この演習では、実際にそれらの重複を見つけて、この疑いを確認します。ride_sharing のサンプルと、これまで使用してきたすべてのパッケージは環境に用意されています。