Mencoba berbagai metode
Bagus, Anda sudah mempelajari beberapa metode untuk menghitung jarak string. Metode yang digunakan bergantung pada banyak keadaan, jadi ada baiknya bereksperimen dengan berbagai metode dan parameternya agar lebih memahami. Untuk latihan ini Anda akan menggunakan kata pencarian "Marya Carey" — versi salah ketik dari nama "Mariah Carey". Seberapa mirip nama yang salah ketik tersebut dengan yang sebenarnya jika diukur dengan berbagai metode jarak string?
Tujuannya adalah menemukan parameter yang menghasilkan jarak rendah untuk kedua nama yang disebutkan di atas, sekaligus mempertahankan jarak yang besar terhadap nama-nama lain dalam daftar yang bukan orang yang dicari.
Latihan ini adalah bagian dari kursus
Ekspresi Reguler Tingkat Menengah di R
Petunjuk latihan
- Hasilkan q-gram untuk nilai panjang substring
1dan2. - Hitung jarak string antara
searchdannamesmenggunakan metode q-gram untuk nilai panjang substring1dan2. - Hitung jarak string antara
searchdannamesmenggunakan metode"osa".
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
search <- "Mariah Carey"
names <- c("M. Carey", "Mick Jagger", "Michael Jackson")
# Pass the values 1 and 2 as "q" and inspect the qgrams
qgrams("Mariah Carey", "M. Carey", q = ___)
qgrams("Mariah Carey", "M. Carey", q = ___)
# Try the qgram method on the variables search and names
stringdist(___, ___, method = "___", q = 1)
stringdist(___, ___, method = "___", q = 2)
# Try the default method (osa) on the same input and compare
stringdist(___, ___, method = "___")