Erste SchritteKostenlos loslegen

Der Abschneidepunkt

In dieser Übung und im gesamten Kapitel wirst du mit dem DataFrame restaurants arbeiten, der Daten zu verschiedenen Restaurants enthält. Dein Ziel ist es, eine Restaurant-Empfehlungsmaschine zu entwickeln, aber dafür musst du zuerst deine Daten bereinigen.

Diese Version von restaurants wurde aus vielen Quellen zusammengetragen, in denen die Spalte cuisine_type mit Tippfehlern gespickt ist, und sollte nur die Küchentypen italian, american und asian enthalten. Es gibt so viele eindeutige Kategorien, dass eine manuelle Zuordnung nicht möglich ist und stattdessen die Zeichenkettenähnlichkeit verwendet werden sollte.

Bevor du das tust, möchtest du mit der Funktion process.extract() von thefuzz den Abschneidepunkt für die Ähnlichkeitsbewertung festlegen, indem du die Ähnlichkeitsbewertung des am weitesten entfernten Tippfehlers jeder Kategorie findest.

Diese Übung ist Teil des Kurses

Datenbereinigung in Python

Kurs anzeigen

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Import process from thefuzz
____

# Store the unique values of cuisine_type in unique_types
unique_types = ____

# Calculate similarity of 'asian' to all values of unique_types
print(process.____('____', ____, limit = len(____)))

# Calculate similarity of 'american' to all values of unique_types
print(____('____', ____, ____))

# Calculate similarity of 'italian' to all values of unique_types
print(____)
Bearbeiten und Ausführen von Code