1. Learn
  2. /
  3. Cursuri
  4. /
  5. Curățarea datelor în Python

Connected

exercițiu

Pragul de similitudine

În acest exercițiu, și pe parcursul întregului capitol, vei lucra cu DataFrame-ul restaurants, care conține date despre diverse restaurante. Scopul final este să creezi un motor de recomandare a restaurantelor, însă mai întâi trebuie să cureți datele.

Această versiune a setului restaurants a fost colectată din mai multe surse, iar coloana cuisine_type este plină de greșeli de scriere și ar trebui să conțină doar tipurile de bucătărie italian, american și asian. Există atât de multe categorii unice, încât remaparea lor manuală nu este scalabilă – cel mai bine este să folosești similitudinea dintre șiruri de caractere.

Înainte de a face asta, vrei să stabilești pragul pentru scorul de similitudine, folosind funcția process.extract() din thefuzz, identificând scorul de similitudine al celui mai îndepărtat tip de greșeală din fiecare categorie.

Instrucțiuni 1/2

undefined XP
    1
    2
  • Importă process din thefuzz.
  • Stochează tipurile unice de cuisine_type în unique_types.
  • Calculează similitudinea dintre 'asian', 'american' și 'italian' și toate valorile posibile din cuisine_type, folosind process.extract(), returnând toate potrivirile posibile.