1. सीखें
  2. /
  3. पाठ्यक्रम
  4. /
  5. Python으로 데이터 정제하기

Connected

अभ्यास

커트오프 지점

이번 연습 문제와 이 장 전반에서 다룰 restaurants DataFrame에는 여러 레스토랑 정보가 들어 있습니다. 최종 목표는 레스토랑 추천 엔진을 만드는 것이지만, 먼저 데이터를 정리해야 해요.

여러 출처에서 수집한 현재 버전의 restaurants에서는 cuisine_type 열에 오탈자가 매우 많고, 원래는 italian, american, asian 세 가지 종류만 있어야 합니다. 고유 범주가 너무 많아 일일이 매핑하기는 비효율적이므로, 문자열 유사도를 사용하는 것이 가장 좋아요.

그전에, 각 범주의 가장 ‘멀리 떨어진’ 오탈자에 대한 유사도 점수를 찾아, thefuzz의 process.extract() 함수를 사용해 유사도 점수의 커트오프 지점을 먼저 정해 보려고 합니다.

निर्देश 1/2

undefined XP
    1
    2
  • thefuzz에서 process를 가져오세요.
  • 고유한 cuisine_type 값을 unique_types에 저장하세요.
  • process.extract()를 사용해 'asian', 'american', 'italian' 각각을 모든 가능한 cuisine_type과 비교하여 유사도를 계산하고, 가능한 모든 매치를 반환하세요.