1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 데이터 정제하기

Connected

연습 문제

범주 재매핑 II

이전 연습 문제에서 cuisine_type 열에 저장된 'american', 'asian', 'italian' 요리 유형의 오타를 재매핑하기 위한 유사도 임계값이 80이어야 한다는 것을 확인했어요.

이번 연습에서는 이를 모두 종합해 보겠습니다. 각 올바른 요리 유형에 대해 fuzywuzzy.process의 extract() 함수를 사용해 유사도 점수가 80 이상인 항목을 찾아 해당 올바른 요리 유형으로 교체할 거예요. 참고로, process.extract()로 문자열 하나를 문자열 배열과 비교하면 결과는 다음과 같은 형식의 튜플 목록입니다:

(가장 가까운 매치, 유사도 점수, 매치의 인덱스)

restaurants DataFrame은 이미 환경에 로드되어 있으며, 올바른 요리 유형인 ('italian', 'asian', 'american')이 담긴 categories 리스트를 사용할 수 있어요.

지침 1/4

undefined XP
    1
    2
    3
    4
  • restaurants의 cuisine_type 열에서 모든 고유 값을 반환하세요.