Onpartijdige duplicaten oplossen
De gegevensset parking_violation is aangepast met een kolom fee die de boete voor de overtreding aangeeft. Deze kolom is handig om de inkomsten uit parkeerbonnen in New York City bij te houden. Door gedupliceerde overtredingsrecords zouden de omzetberekeningen op basis van de gegevensset echter niet kloppen. Deze dubbele records verschillen alleen in de waarde van de kolom fee. Alle andere kolomwaarden zijn gelijk in de gedupliceerde records. Er is besloten om de minimale fee te gebruiken om de onduidelijkheid door deze duplicaten op te lossen.
Identificeer de 3 gedupliceerde parking_violation-records en gebruik de functie MIN() om de fee te bepalen die wordt gebruikt na het verwijderen van de dubbele records.
Deze oefening maakt deel uit van de cursus
Data opschonen in PostgreSQL-databases
Oefeninstructies
- Geef de
summons_numberen de minimalefeeterug voor gedupliceerde records. - Groepeer de resultaten op
summons_number. - Beperk de resultaten tot records met een count van
summons_numberdie groter is dan 1.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
SELECT
-- Include SELECT list columns
___,
___(___) AS fee
FROM
parking_violation
GROUP BY
-- Define column for GROUP BY
___
HAVING
-- Restrict to summons numbers with count greater than 1
___(___) ___ ___;