1. Обучение
  2. /
  3. Курса
  4. /
  5. Curățarea datelor în Python

Connected

упражнение

Perechi de restaurante

În ultima lecție, ai curățat setul de date restaurants pentru a-l pregăti în vederea construirii unui motor de recomandare de restaurante. Ai un nou DataFrame numit restaurants_new cu restaurante noi pe care să îți antrenezi modelul, extras dintr-o nouă sursă de date.

Ai curățat deja coloanele cuisine_type și city folosind tehnicile învățate pe parcursul cursului. Totuși, ai observat duplicate cu greșeli de scriere în numele restaurantelor, care necesită legarea înregistrărilor (record linkage) în loc de îmbinări cu restaurants.

În acest exercițiu, vei realiza primul pas în legarea înregistrărilor și vei genera perechile posibile de rânduri între restaurants și restaurants_new. Ambele DataFrame-uri, pandas și recordlinkage sunt disponibile în mediul tău.

Инструкции 1/2

undefined XP
    1
    2
  • Instanțiază un obiect de indexare folosind funcția Index() din recordlinkage.
  • Blochează asocierea pe coloana cuisine_type folosind metoda .block() a obiectului indexer.
  • Generează perechile indexând restaurants și restaurants_new în această ordine.