CommencerCommencer gratuitement

Résoudre des doublons partiels

Le jeu de données parking_violation a été modifié pour inclure une colonne fee indiquant le montant de l’amende. Cette colonne est utile pour suivre les recettes liées aux contraventions de stationnement à New York. Cependant, en raison d’enregistrements de violations en double, les calculs de recettes basés sur ce jeu de données ne seraient pas exacts. Ces doublons ne diffèrent que par la valeur de la colonne fee. Toutes les autres colonnes sont identiques dans les enregistrements dupliqués. Il a été décidé d’utiliser la valeur minimale de fee pour lever l’ambiguïté créée par ces doublons.

Identifiez les 3 enregistrements parking_violation dupliqués et utilisez la fonction MIN() pour déterminer la valeur de fee qui sera retenue après suppression des doublons.

Cet exercice fait partie du cours

Nettoyer des données dans des bases PostgreSQL

Afficher le cours

Instructions

  • Retournez le summons_number et la valeur minimale de fee pour les enregistrements dupliqués.
  • Regroupez les résultats par summons_number.
  • Limitez les résultats aux enregistrements dont le count de summons_number est supérieur à 1.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

SELECT 
	-- Include SELECT list columns
	___, 
    ___(___) AS fee
FROM 
	parking_violation 
GROUP BY
	-- Define column for GROUP BY
	___ 
HAVING 
	-- Restrict to summons numbers with count greater than 1
	___(___) ___ ___;
Modifier et exécuter le code