Der Abschneidepunkt
In dieser Übung und im gesamten Kapitel wirst du mit dem DataFrame restaurants
arbeiten, der Daten zu verschiedenen Restaurants enthält. Dein Ziel ist es, eine Restaurant-Empfehlungsmaschine zu entwickeln, aber dafür musst du zuerst deine Daten bereinigen.
Diese Version von restaurants
wurde aus vielen Quellen zusammengetragen, in denen die Spalte cuisine_type
mit Tippfehlern gespickt ist, und sollte nur die Küchentypen italian
, american
und asian
enthalten. Es gibt so viele eindeutige Kategorien, dass eine manuelle Zuordnung nicht möglich ist und stattdessen die Zeichenkettenähnlichkeit verwendet werden sollte.
Bevor du das tust, möchtest du mit der Funktion process.extract()
von thefuzz
den Abschneidepunkt für die Ähnlichkeitsbewertung festlegen, indem du die Ähnlichkeitsbewertung des am weitesten entfernten Tippfehlers jeder Kategorie findest.
Diese Übung ist Teil des Kurses
Datenbereinigung in Python
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Import process from thefuzz
____
# Store the unique values of cuisine_type in unique_types
unique_types = ____
# Calculate similarity of 'asian' to all values of unique_types
print(process.____('____', ____, limit = len(____)))
# Calculate similarity of 'american' to all values of unique_types
print(____('____', ____, ____))
# Calculate similarity of 'italian' to all values of unique_types
print(____)