1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 데이터 정제하기

Connected

연습 문제

레스토랑 쌍 생성하기

지난 레슨에서는 레스토랑 추천 엔진 구축을 위해 restaurants 데이터셋을 정제했습니다. 이제 새로운 데이터 소스에서 스크래핑한 restaurants_new라는 DataFrame이 있으며, 이를 모델 학습에 활용할 예정입니다.

강의에서 배운 기법을 사용해 cuisine_type과 city 열은 이미 정제했습니다. 그런데 레스토랑 이름에 오타가 포함된 중복 데이터가 발견되어, restaurants와 단순 조인 대신 레코드 연결(Record Linkage)이 필요합니다.

이번 연습 문제에서는 레코드 연결의 첫 번째 단계로, restaurants와 restaurants_new 사이에서 가능한 행 쌍을 생성합니다. pandas와 recordlinkage, 그리고 두 DataFrame이 모두 환경에 준비되어 있습니다.

지침 1/2

undefined XP
    1
    2
  • recordlinkage의 Index() 함수를 사용해 인덱싱 객체를 생성하세요.
  • indexer의 .block() 메서드를 사용해 cuisine_type을 기준으로 쌍을 블로킹하세요.
  • restaurants와 restaurants_new 순서로 인덱싱하여 쌍을 생성하세요.