Het afkappunt
In deze oefening, en de rest van dit hoofdstuk, werk je met de DataFrame restaurants met gegevens over verschillende restaurants. Je uiteindelijke doel is een aanbevelingssysteem voor restaurants bouwen, maar eerst moet je je data opschonen.
Deze versie van restaurants is afkomstig uit veel bronnen, waarbij de kolom cuisine_type vol zit met typfouten. Die kolom zou alleen de types italian, american en asian mogen bevatten. Er zijn zo veel unieke categorieën dat handmatig hercoderen niet schaalbaar is; het is beter om stringsimilariteit te gebruiken.
Voordat je dat doet, wil je het afkappunt voor de similariteitsscore bepalen met de functie process.extract() uit thefuzz, door de similariteitsscore te vinden van de meest verre typfout van elke categorie.
Deze oefening maakt deel uit van de cursus
Data opschonen in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import process from thefuzz
____
# Store the unique values of cuisine_type in unique_types
unique_types = ____
# Calculate similarity of 'asian' to all values of unique_types
print(process.____('____', ____, limit = len(____)))
# Calculate similarity of 'american' to all values of unique_types
print(____('____', ____, ____))
# Calculate similarity of 'italian' to all values of unique_types
print(____)