스케일의 영향

변수 중 하나가 다른 변수들보다 더 큰 스케일을 가지면, 관측치 간 거리를 계산할 때 그 변수가 불균형하게 큰 영향을 줄 수 있다는 것을 배웠습니다. 이제 trees 데이터셋의 일부 샘플을 보며 이를 직접 확인해 보겠습니다.

기본적으로 열 특성을 중심화하고 스케일링하는 scale() 함수를 사용하겠습니다.

변수는 다음과 같습니다:

Girth - 나무 지름(인치)
Height - 나무 높이(인치)

데이터 프레임 three_trees에 대해 거리 행렬을 계산하고 dist_trees로 저장하세요.
three_trees 데이터를 중심화하고 스케일링한 새 변수 scaled_three_trees를 만드세요.
scaled_three_trees의 거리 행렬을 계산하여 출력하고 dist_scaled_trees로 저장하세요.
dist_trees와 dist_scaled_trees 두 행렬을 모두 출력하고, 두 행렬 사이에서 어떤 관측치 쌍의 거리가 가장 작은지가 어떻게 바뀌었는지 관찰하세요 (힌트: 바뀌었습니다).