Kategorien neu zuordnen, Teil II
In der letzten Übung hast du herausgefunden, dass der Distanz-Abschneidepunkt für Tippfehler bei der Neuzuordnung der in Spalte cuisine_type
gespeicherten Küchentypen 'american'
, 'asian'
und 'italian'
bei 80 liegen sollte.
In dieser Übung wirst du alles zusammenfügen, indem du mit der Funktion extract()
von fuzywuzzy.process
für jeden korrekten Küchentyp Übereinstimmungen mit Ähnlichkeitswerten von 80 oder mehr findest und diese Übereinstimmungen damit ersetzt. Erinnere dich: Wenn du eine Zeichenkette mit einem Array von Zeichenketten mit process.extract()
vergleichst, ist die Ausgabe eine Liste von Tupeln, die jeweils wie folgt formatiert sind:
(closest match, similarity score, index of match)
Der DataFrame restaurants
befindet sich in deiner Umgebung, und du hast Zugriff auf eine categories
-Liste mit den richtigen Küchentypen ('italian'
, 'asian'
und 'american'
).
Diese Übung ist Teil des Kurses
Datenbereinigung in Python
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Inspect the unique values of the cuisine_type column
print(____)