Histograma para KDE
Nestes exercícios, vamos analisar um subconjunto dos nossos dados de autuações aplicadas a "Heavy Duty Truck"s. Podemos ser um motorista de caminhão experiente em dados e querer saber qual é o horário mais perigoso para estar na estrada. Observe que o tamanho da amostra aqui é de apenas 32 observações.
Abaixo está um código para criar um histograma padrão com ggplot. Sem surpresa, não é ótimo. Não há dados suficientes para preencher nem 30 bins, o que dificulta a leitura e a compreensão do conjunto de dados. Troque a geometria para um KDE usando geom_density(). Por fim, para manter a maior transparência possível na sua visualização, adicione um subtítulo ao gráfico informando ao leitor a largura de banda usada no seu KDE.
Este exercício faz parte do curso
Boas práticas de visualização em R
Instruções do exercício
- Troque a geometria de histograma por uma de densidade (
geom_density()). - Modifique a largura de banda padrão para
1.5unidades. - Adicione o
subtitle"Gaussian kernel SD = 1.5"ao seu gráfico, informando ao leitor a largura de banda do seu kernel.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# filter data to just heavy duty trucks
truck_speeding <- md_speeding %>%
filter(vehicle_type == "Heavy Duty Truck")
ggplot(truck_speeding, aes(x = hour_of_day)) +
# switch to density with bin width of 1.5, keep fill
geom_histogram(fill = 'steelblue') +
# add a subtitle stating binwidth
labs(title = 'Citations by hour')