1. 학습
  2. /
  3. 강의
  4. /
  5. pandas로 데이터 다루기

Connected

연습 문제

다중 수준 인덱스 설정하기

인덱스는 여러 열로도 만들 수 있으며, 이렇게 하면 다중 수준 인덱스(또는 계층적 인덱스)가 됩니다. 이를 사용할 때는 장단점이 있어요.

장점은 다중 수준 인덱스를 사용하면 중첩된 범주형 변수를 더 자연스럽게 다룰 수 있다는 점입니다. 예를 들어 임상시험에서는 대조군과 치료군이 있고, 각 피실험자는 두 그룹 중 하나에 속합니다. 이때 피실험자는 치료군 안에 “중첩”되어 있다고 말할 수 있어요. 비슷하게, 온도 데이터셋에서는 도시는 국가에 위치하므로, 도시는 국가 안에 중첩되어 있다고 할 수 있습니다.

주요 단점은 인덱스를 다루는 코드가 열을 다루는 코드와 다르다는 점입니다. 따라서 두 가지 문법을 배우고, 데이터가 어떻게 표현되어 있는지 계속 파악해야 해요.

pandas는 pd로 불러와져 있습니다. temperatures를 사용할 수 있어요.

지침

100 XP
  • temperatures의 인덱스를 "country"와 "city" 열로 설정하고, 이를 temperatures_ind에 할당하세요.
  • 유지할 국가/도시 쌍 두 개를 지정해 rows_to_keep에 할당하세요: "Brazil"/"Rio De Janeiro"와 "Pakistan"/"Lahore".
  • .loc[]를 사용해 rows_to_keep에 해당하는 temperatures_ind를 출력하고 서브셋팅하세요.