Gegroeperde statistieken samenvatten
Soms wil je weten hoe een waarde verschilt tussen groepen. Bijvoorbeeld: hoe varieert de maximale waarde per groep over de groepen heen?
Om dat te achterhalen, vat je eerst per groep samen en bereken je daarna samenvattende statistieken over die groepsresultaten. Een manier om dit te doen is groepswaarden berekenen in een subquery en vervolgens de resultaten van die subquery samenvatten.
Voor deze oefening: wat is de standaarddeviatie over tags in het maximale aantal Stack Overflow-vragen per dag? En wat zijn het gemiddelde, minimum en maximum van die maxima?
Deze oefening maakt deel uit van de cursus
Exploratory Data Analysis in SQL
Oefeninstructies
- Begin met een subquery die de
max()vanquestion_countper tag berekent; geef het subquery-resultaat de aliasmaxval. - Bereken daarna de standaarddeviatie van
maxvalmetstddev(). - Bereken ook de
min(),max()enavg()vanmaxval.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
-- Compute standard deviation of maximum values
SELECT ___(___),
-- min
___(___),
-- max
___(___),
-- avg
___(___)
-- Subquery to compute max of question_count by tag
FROM (SELECT ___(___) AS ___
FROM stackoverflow
-- Compute max by...
GROUP BY ___) AS max_results; -- alias for subquery