Résoudre des doublons partiels
Le jeu de données parking_violation a été modifié pour inclure une colonne fee indiquant le montant de l’amende. Cette colonne est utile pour suivre les recettes liées aux contraventions de stationnement à New York. Cependant, en raison d’enregistrements de violations en double, les calculs de recettes basés sur ce jeu de données ne seraient pas exacts. Ces doublons ne diffèrent que par la valeur de la colonne fee. Toutes les autres colonnes sont identiques dans les enregistrements dupliqués. Il a été décidé d’utiliser la valeur minimale de fee pour lever l’ambiguïté créée par ces doublons.
Identifiez les 3 enregistrements parking_violation dupliqués et utilisez la fonction MIN() pour déterminer la valeur de fee qui sera retenue après suppression des doublons.
Cet exercice fait partie du cours
Nettoyer des données dans des bases PostgreSQL
Instructions
- Retournez le
summons_numberet la valeur minimale defeepour les enregistrements dupliqués. - Regroupez les résultats par
summons_number. - Limitez les résultats aux enregistrements dont le count de
summons_numberest supérieur à 1.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
SELECT
-- Include SELECT list columns
___,
___(___) AS fee
FROM
parking_violation
GROUP BY
-- Define column for GROUP BY
___
HAVING
-- Restrict to summons numbers with count greater than 1
___(___) ___ ___;