1. Learn
  2. /
  3. Courses
  4. /
  5. Curățarea datelor în Python

Connected

Exercise

Remaparea categoriilor II

În exercițiul anterior, ai stabilit că pragul de distanță pentru remaparea greșelilor de scriere din coloana cuisine_type – pentru tipurile de bucătărie 'american', 'asian' și 'italian' – ar trebui să fie 80.

În acest exercițiu, vei pune totul cap la cap: vei găsi potrivirile cu scoruri de similaritate egale sau mai mari de 80, folosind funcția extract() din fuzywuzzy.process, pentru fiecare tip de bucătărie corect, și le vei înlocui cu acesta. Reține că, atunci când compari un șir de caractere cu un array de șiruri folosind process.extract(), rezultatul este o listă de tupluri, fiecare formatat astfel:

(closest match, similarity score, index of match)

DataFrame-ul restaurants este disponibil în mediul tău, iar lista categories conține tipurile corecte de bucătărie ('italian', 'asian' și 'american').

Instructions 1/4

undefined XP
    1
    2
    3
    4
  • Returnează toate valorile unice din coloana cuisine_type a DataFrame-ului restaurants.