Titik batas (cutoff)
Dalam latihan ini, dan sepanjang bab ini, Anda akan bekerja dengan DataFrame restaurants yang berisi data berbagai restoran. Tujuan akhir Anda adalah membuat mesin rekomendasi restoran, tetapi Anda perlu membersihkan data terlebih dahulu.
Versi restaurants ini dikumpulkan dari banyak sumber, di mana kolom cuisine_type dipenuhi salah ketik dan seharusnya hanya berisi jenis masakan italian, american, dan asian. Ada begitu banyak kategori unik sehingga melakukan pemetaan ulang secara manual tidak skalabel, sehingga sebaiknya gunakan kemiripan string.
Sebelum melakukannya, Anda ingin menetapkan titik batas (cutoff) untuk skor kemiripan menggunakan fungsi process.extract() dari thefuzz dengan mencari skor kemiripan dari salah ketik yang paling jauh untuk setiap kategori.
Latihan ini adalah bagian dari kursus
Membersihkan Data di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import process from thefuzz
____
# Store the unique values of cuisine_type in unique_types
unique_types = ____
# Calculate similarity of 'asian' to all values of unique_types
print(process.____('____', ____, limit = len(____)))
# Calculate similarity of 'american' to all values of unique_types
print(____('____', ____, ____))
# Calculate similarity of 'italian' to all values of unique_types
print(____)