IniziaInizia gratis

Rimappare le categorie II

Nell'ultimo esercizio, hai stabilito che la soglia di distanza per rimappare i refusi dei tipi di cucina 'american', 'asian' e 'italian' salvati nella colonna cuisine_type dovrebbe essere 80.

In questo esercizio, metterai tutto insieme trovando le corrispondenze con punteggi di similarità pari o superiori a 80 usando la funzione extract() di fuzywuzzy.process, per ciascun tipo di cucina corretto, e sostituendo queste corrispondenze con quello corretto. Ricorda: quando confronti una stringa con un array di stringhe usando process.extract(), l'output è una lista di tuple, ciascuna nel formato:

(corrispondenza più vicina, punteggio di similarità, indice della corrispondenza)

Il DataFrame restaurants è già nel tuo ambiente, e hai accesso a una lista categories contenente i tipi di cucina corretti ('italian', 'asian' e 'american').

Questo esercizio fa parte del corso

Pulizia dei dati in Python

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Inspect the unique values of the cuisine_type column
print(____)
Modifica ed esegui il codice