1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 데이터 정제하기

Connected

연습 문제

레스토랑 쌍 만들기

지난 레슨에서는 레스토랑 추천 엔진을 만들 준비를 하도록 restaurants 데이터셋을 정리했어요. 이제 새로운 데이터 소스에서 스크레이핑한 신규 레스토랑이 담긴 restaurants_new DataFrame이 있어, 모델 학습에 활용하려고 합니다.

이 과정에서 배운 기법을 사용해 cuisine_type과 city 열은 이미 정리했습니다. 하지만 레스토랑 이름에 오타가 있는 중복값이 보여서, restaurants와 단순 조인 대신 레코드 결합(record linkage)이 필요해요.

이번 연습에서는 레코드 결합의 첫 단계로, restaurants와 restaurants_new 사이에서 가능한 행 쌍을 생성합니다. 두 DataFrame과 pandas, recordlinkage 패키지는 이미 환경에 준비되어 있어요.

지침 1/2

undefined XP
    1
    2
  • recordlinkage의 Index() 함수를 사용해 인덱싱 객체를 생성하세요.
  • indexer의 .block() 메서드를 사용해 cuisine_type을 기준으로 블로킹하세요.
  • 그다음 restaurants와 restaurants_new를 이 순서로 인덱싱해 쌍을 생성하세요.