1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w Pythonie

Connected

ćwiczenie

Ponowne mapowanie kategorii II

W poprzednim ćwiczeniu określono, że próg odległości do ponownego mapowania literówek w typach kuchni 'american', 'asian' i 'italian' przechowywanych w kolumnie cuisine_type wynosi 80.

W tym ćwiczeniu połączysz to wszystko razem: znajdziesz dopasowania z wynikami podobieństwa równymi lub wyższymi niż 80, korzystając z funkcji extract() z fuzywuzzy.process, dla każdego poprawnego typu kuchni, a następnie zastąpisz te dopasowania właściwą wartością. Pamiętaj, że porównując ciąg znaków z tablicą ciągów za pomocą process.extract(), wynikiem jest lista krotek, z których każda ma następujący format:

(closest match, similarity score, index of match)

DataFrame restaurants jest dostępny w twoim środowisku, a lista categories zawiera poprawne typy kuchni ('italian', 'asian' i 'american').

Instrukcje 1/4

undefined XP
    1
    2
    3
    4
  • Zwróć wszystkie unikalne wartości z kolumny cuisine_type w DataFrame restaurants.