1. 학습
  2. /
  3. 강의
  4. /
  5. pandas를 이용한 데이터 다루기

Connected

연습 문제

멀티 인덱스 설정하기

다수의 열로도 인덱스를 구성할 수 있는데, 이를 다중 레벨 인덱스(또는 계층적 인덱스)라고 부릅니다. 다중 레벨 인덱스를 사용할 때는 장단점이 있습니다.

장점은 중첩된 범주형 변수를 더 자연스럽게 다룰 수 있다는 점입니다. 예를 들어, 임상 시험에 대조군과 처치군이 있다고 한다면, 각 피험자는 두 그룹 중 하나에 속합니다. 이런 경우에 피험자가 그룹 안에 중첩되어 있다고 할 수 있습니다. 마찬가지로, temperature 데이터 세트에서도 도시는 특정 국가 안에 위치하기 때문에, 도시가 국가 안에 중첩되어 있다고 볼 수 있습니다.

단점은 인덱스를 조작하는 코드가 열을 조작하는 코드와 다르다는 점입니다. 따라서 두 가지 문법을 모두 익히고, 데이터가 어떻게 표현되어 있는지 파악해야 합니다.

pandas는 pd로 로드되어 있습니다. temperatures를 사용할 수 있습니다.

지침

100 XP
  • temperatures의 인덱스를 "country"와 "city" 열로 설정하고, 그 결과를 temperatures_ind에 할당하세요.
  • 유지할 국가/도시 쌍 두 개 "Brazil"/"Rio De Janeiro"와 "Pakistan"/"Lahore"를 지정하세요. 그 결과를 rows_to_keep에 할당하세요.
  • .loc[]을 사용해 rows_to_keep에 해당하는 행을 temperatures_ind에서 부분 추출하고 출력하세요.