Titik batas (cutoff)

Dalam latihan ini, dan sepanjang bab ini, Anda akan bekerja dengan DataFrame restaurants yang berisi data berbagai restoran. Tujuan akhir Anda adalah membuat mesin rekomendasi restoran, tetapi Anda perlu membersihkan data terlebih dahulu.

Versi restaurants ini dikumpulkan dari banyak sumber, di mana kolom cuisine_type dipenuhi salah ketik dan seharusnya hanya berisi jenis masakan italian, american, dan asian. Ada begitu banyak kategori unik sehingga melakukan pemetaan ulang secara manual tidak skalabel, sehingga sebaiknya gunakan kemiripan string.

Sebelum melakukannya, Anda ingin menetapkan titik batas (cutoff) untuk skor kemiripan menggunakan fungsi process.extract() dari thefuzz dengan mencari skor kemiripan dari salah ketik yang paling jauh untuk setiap kategori.

Latihan ini merupakan bagian dari kursus

Membersihkan Data di Python

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import process from thefuzz
____

# Store the unique values of cuisine_type in unique_types
unique_types = ____

# Calculate similarity of 'asian' to all values of unique_types
print(process.____('____', ____, limit = len(____)))

# Calculate similarity of 'american' to all values of unique_types
print(____('____', ____, ____))

# Calculate similarity of 'italian' to all values of unique_types
print(____)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Membersihkan Data di Python

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Di bab ini, Anda akan mempelajari cara mengatasi beberapa masalah data kotor yang paling umum. Anda akan mengonversi tipe data, menerapkan batasan rentang untuk menghapus titik data masa depan, dan menghapus duplikasi titik data untuk menghindari penghitungan ganda.

Exercise 1: Kendala tipe data Exercise 2: Tipe data umum Exercise 3: Data numerik atau ... ?Exercise 4: Menjumlahkan string dan menggabungkan angka Exercise 5: Kendala rentang data Exercise 6: Kendala ukuran ban Exercise 7: Kembali ke masa depan Exercise 8: Kendala keunikan Exercise 9: Seberapa besar subset Anda?Exercise 10: Menemukan duplikat Exercise 11: Menangani duplikasi

Data kategorikal dan teks sering kali menjadi bagian yang paling berantakan dalam suatu himpunan data karena sifatnya yang tidak terstruktur. Di bab ini, Anda akan belajar memperbaiki ketidakkonsistenan spasi kosong dan kapitalisasi pada label kategori, menggabungkan beberapa kategori menjadi satu, serta memformat ulang string agar konsisten.

Exercise 1: Kendala keanggotaan Exercise 2: Khusus anggota Exercise 3: Menemukan konsistensi Exercise 4: Variabel kategori Exercise 5: Kategori kesalahan Exercise 6: Kategori tidak konsisten Exercise 7: Memetakan ulang kategori Exercise 8: Membersihkan data teks Exercise 9: Menghapus gelar dan mengambil nama Exercise 10: Tetap deskriptif

Di bab ini, Anda akan membahas masalah pembersihan data yang lebih lanjut, seperti memastikan bahwa semua bobot ditulis dalam kilogram, bukan pon. Anda juga akan memperoleh keterampilan berharga untuk membantu memverifikasi bahwa nilai telah dijumlahkan dengan benar, serta memastikan nilai hilang tidak berdampak negatif pada analisis Anda.

Exercise 1: Keseragaman Exercise 2: Tanggal ambigu Exercise 3: Penyamaan mata uang Exercise 4: Tanggal seragam Exercise 5: Validasi lintas bidang Exercise 6: Lintas kolom atau bukan lintas kolom?Exercise 7: Bagaimana integritas data kita?Exercise 8: Kelengkapan Exercise 9: Apakah ini missing at random?Exercise 10: Investor yang hilang Exercise 11: Ikuti aliran dana

Record linkage adalah teknik yang kuat untuk menggabungkan beberapa himpunan data, digunakan ketika nilai memiliki salah ketik atau ejaan berbeda. Di bab ini, Anda akan mempelajari cara menautkan record dengan menghitung kemiripan antarstring—kemudian Anda akan menggunakan keterampilan baru ini untuk menggabungkan dua himpunan data ulasan restoran menjadi satu himpunan data induk yang bersih.

Exercise 1: Membandingkan string Exercise 2: Jarak edit minimum Exercise 3: Titik batas (cutoff)

Latihan Saat Ini

Exercise 4: Pemetaan ulang kategori II Exercise 5: Membuat pasangan Exercise 6: Mengaitkan atau tidak?Exercise 7: Pasangan restoran Exercise 8: Restoran serupa Exercise 9: Menghubungkan DataFrame Exercise 10: Mengambil indeks yang benar Exercise 11: Menghubungkannya bersama!Exercise 12: Selamat!