메릴랜드 범죄 데이터 시각화

모형을 적합하기 전에 데이터를 그래프로 확인하면 눈에 띄는 추세나 데이터 포인트, 이상치 여부, 앞으로 고려해야 할 특성들을 파악하는 데 도움이 됩니다. ggplot2를 사용하면 카운티별 선 그래프를 그려 시간이 지나면서 범죄가 어떻게 변하는지 살펴볼 수 있어요. 이번 연습에서는 메릴랜드 범죄 데이터(md_crime)를 살펴봅니다. 이 데이터에는 Year, 각 카운티의 강력 Crime 건수, 그리고 County 이름이 포함되어 있어요.

이 데이터를 탐색하기 위해 먼저 각 카운티의 시간에 따른 데이터 포인트를 그려 보세요. 이렇게 하면 카운티별 변화 양상을 한눈에 볼 수 있습니다. 카운티 수가 많아 색으로 구분하기 어렵기 때문에 color 같은 미적 요소 대신 group을 사용합니다. 원자료를 그린 뒤에는 카운티별 추세선도 추가하세요.

연결 선(geom_line)과 추세선(geom_smooth) 모두 어떤 종류의 랜덤 효과가 필요한지에 대한 통찰을 제공합니다. 모든 포인트의 범위와 평균이 비슷해 보인다면 랜덤 효과 절편이 중요하지 않을 수 있어요. 마찬가지로, 카운티 간 추세가 일관되어 보인다면(즉, 그룹 간 추세선이 유사하거나 서로 평행해 보이면) 랜덤 효과 기울기가 필요하지 않을 수 있습니다.

md_crime 데이터를 사용해 각 County(group 변수)에서 Year(x 변수)에 따라 Crime(y 변수)이 어떻게 변했는지 그려 보세요.
geom_smooth(method = 'lm', se = FALSE)로 카운티별 추세선을 추가하세요. se = FALSE는 그래프를 덜 복잡하게 합니다.

연습 문제

메릴랜드 범죄 데이터 시각화

지침 1/2

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침 1/2

연습 문제