BaşlayınÜcretsiz Başlayın

Eşik değeri

Bu egzersizde ve bu bölüm boyunca, çeşitli restoranlara ait veriler içeren restaurants DataFrame'i ile çalışacaksın. Nihai hedefin bir restoran öneri motoru oluşturmak, ancak önce verilerini temizlemen gerekiyor.

restaurants'ın bu sürümü birçok kaynaktan toplanmış; cuisine_type sütunu yazım hatalarıyla dolu ve aslında yalnızca italian, american ve asian mutfak türlerini içermeli. O kadar çok benzersiz kategori var ki bunları elle yeniden eşlemek ölçeklenebilir değil; bunun yerine dize benzerliğini kullanmak en iyisi.

Bunu yapmadan önce, her kategorinin en uzak yazım hatasının benzerlik puanını bularak, thefuzz'ın process.extract() fonksiyonunu kullanıp benzerlik puanı için bir eşik noktası belirlemek istiyorsun.

Bu egzersiz

Python ile Veri Temizleme

kursunun bir parçasıdır
Kursu Görüntüle

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import process from thefuzz
____

# Store the unique values of cuisine_type in unique_types
unique_types = ____

# Calculate similarity of 'asian' to all values of unique_types
print(process.____('____', ____, limit = len(____)))

# Calculate similarity of 'american' to all values of unique_types
print(____('____', ____, ____))

# Calculate similarity of 'italian' to all values of unique_types
print(____)
Kodu Düzenle ve Çalıştır