Onpartijdige duplicaten oplossen

De gegevensset parking_violation is aangepast met een kolom fee die de boete voor de overtreding aangeeft. Deze kolom is handig om de inkomsten uit parkeerbonnen in New York City bij te houden. Door gedupliceerde overtredingsrecords zouden de omzetberekeningen op basis van de gegevensset echter niet kloppen. Deze dubbele records verschillen alleen in de waarde van de kolom fee. Alle andere kolomwaarden zijn gelijk in de gedupliceerde records. Er is besloten om de minimale fee te gebruiken om de onduidelijkheid door deze duplicaten op te lossen.

Identificeer de 3 gedupliceerde parking_violation-records en gebruik de functie MIN() om de fee te bepalen die wordt gebruikt na het verwijderen van de dubbele records.

Deze oefening maakt deel uit van de cursus

Data opschonen in PostgreSQL-databases

Bekijk cursus

Oefeninstructies

Geef de summons_number en de minimale fee terug voor gedupliceerde records.
Groepeer de resultaten op summons_number.
Beperk de resultaten tot records met een count van summons_number die groter is dan 1.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

SELECT 
	-- Include SELECT list columns
	___, 
    ___(___) AS fee
FROM 
	parking_violation 
GROUP BY
	-- Define column for GROUP BY
	___ 
HAVING 
	-- Restrict to summons numbers with count greater than 1
	___(___) ___ ___;

Code bewerken en uitvoeren