커트오프 지점

이번 연습 문제와 이 장 전반에서 다룰 restaurants DataFrame에는 여러 레스토랑 정보가 들어 있습니다. 최종 목표는 레스토랑 추천 엔진을 만드는 것이지만, 먼저 데이터를 정리해야 해요.

여러 출처에서 수집한 현재 버전의 restaurants에서는 cuisine_type 열에 오탈자가 매우 많고, 원래는 italian, american, asian 세 가지 종류만 있어야 합니다. 고유 범주가 너무 많아 일일이 매핑하기는 비효율적이므로, 문자열 유사도를 사용하는 것이 가장 좋아요.

그전에, 각 범주의 가장 ‘멀리 떨어진’ 오탈자에 대한 유사도 점수를 찾아, thefuzz의 process.extract() 함수를 사용해 유사도 점수의 커트오프 지점을 먼저 정해 보려고 합니다.