KDE con molti dati
Il codice fornito crea una KDE di base di percentage_over_limit per tutte le contravvenzioni. A prima vista, le impostazioni hanno senso. Abbiamo molti dati, quindi impostiamo un'ampiezza del bin bella stretta: solo un punto percentuale. Inoltre, il rug plot, aggiunto con attenzione, ha un'alpha ridotta a 0.7.
Eseguendo questo codice, vedrai subito che il grafico non è granché. La stima di densità sembra un porcospino e il rug plot è essenzialmente una spessa barra nera a causa dell'enorme sovrapposizione.
Sistemalo aumentando un po' l'ampiezza del bin a 2.5 e abbassando l'alpha del rug plot a 0.05 per cercare di cogliere il grado di sovrapposizione dei punti. Non dimenticare di cambiare il sottotitolo per riflettere la nuova ampiezza del kernel!
Questo esercizio fa parte del corso
Buone pratiche di visualizzazione in R
Istruzioni dell'esercizio
- Cambia la deviazione standard del kernel a
2.5 - Imposta l'
alphadel rug plot a0.05 - Modifica il
subtitlein"Gaussian kernel SD = 2.5"per riflettere la nuova ampiezza del kernel.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
ggplot(md_speeding, aes(x = percentage_over_limit)) +
# Increase bin width to 2.5
geom_density(fill = 'steelblue', bw = 1, alpha = 0.7) +
# lower rugplot alpha to 0.05
geom_rug(alpha = 0.5) +
labs(
title = 'Distribution of % over speed limit',
# modify subtitle to reflect change in kernel width
subtitle = "Gaussian kernel SD = 1"
)