IniziaInizia gratis

Il punto di cutoff

In questo esercizio, e per tutto il capitolo, lavorerai con il DataFrame restaurants, che contiene dati su vari ristoranti. Il tuo obiettivo finale è creare un motore di raccomandazione per ristoranti, ma prima devi pulire i dati.

Questa versione di restaurants è stata raccolta da molte fonti: la colonna cuisine_type è piena di refusi e dovrebbe contenere solo i tipi di cucina italian, american e asian. Le categorie uniche sono così tante che rimapparle a mano non è sostenibile: è meglio usare la similarità tra stringhe.

Prima di farlo, vuoi stabilire il punto di cutoff per il punteggio di similarità usando la funzione process.extract() di thefuzz, trovando il punteggio di similarità del refuso più distante per ciascuna categoria.

Questo esercizio fa parte del corso

Pulizia dei dati in Python

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import process from thefuzz
____

# Store the unique values of cuisine_type in unique_types
unique_types = ____

# Calculate similarity of 'asian' to all values of unique_types
print(process.____('____', ____, limit = len(____)))

# Calculate similarity of 'american' to all values of unique_types
print(____('____', ____, ____))

# Calculate similarity of 'italian' to all values of unique_types
print(____)
Modifica ed esegui il codice