Mencoba berbagai metode
Bagus, Anda sudah mempelajari beberapa metode untuk menghitung jarak string. Metode yang digunakan bergantung pada banyak keadaan, jadi ada baiknya bereksperimen dengan berbagai metode dan parameternya agar lebih memahami. Untuk latihan ini Anda akan menggunakan kata pencarian "Marya Carey" — versi salah ketik dari nama "Mariah Carey". Seberapa mirip nama yang salah ketik tersebut dengan yang sebenarnya jika diukur dengan berbagai metode jarak string?
Tujuannya adalah menemukan parameter yang menghasilkan jarak rendah untuk kedua nama yang disebutkan di atas, sekaligus mempertahankan jarak yang besar terhadap nama-nama lain dalam daftar yang bukan orang yang dicari.
Latihan ini merupakan bagian dari kursus
Ekspresi Reguler Tingkat Menengah di R
Instruksi latihan
- Hasilkan q-gram untuk nilai panjang substring
1dan2. - Hitung jarak string antara
searchdannamesmenggunakan metode q-gram untuk nilai panjang substring1dan2. - Hitung jarak string antara
searchdannamesmenggunakan metode"osa".
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
search <- "Mariah Carey"
names <- c("M. Carey", "Mick Jagger", "Michael Jackson")
# Pass the values 1 and 2 as "q" and inspect the qgrams
qgrams("Mariah Carey", "M. Carey", q = ___)
qgrams("Mariah Carey", "M. Carey", q = ___)
# Try the qgram method on the variables search and names
stringdist(___, ___, method = "___", q = 1)
stringdist(___, ___, method = "___", q = 2)
# Try the default method (osa) on the same input and compare
stringdist(___, ___, method = "___")