MulaiMulai sekarang secara gratis

Mencoba berbagai metode

Bagus, Anda sudah mempelajari beberapa metode untuk menghitung jarak string. Metode yang digunakan bergantung pada banyak keadaan, jadi ada baiknya bereksperimen dengan berbagai metode dan parameternya agar lebih memahami. Untuk latihan ini Anda akan menggunakan kata pencarian "Marya Carey" — versi salah ketik dari nama "Mariah Carey". Seberapa mirip nama yang salah ketik tersebut dengan yang sebenarnya jika diukur dengan berbagai metode jarak string?

Tujuannya adalah menemukan parameter yang menghasilkan jarak rendah untuk kedua nama yang disebutkan di atas, sekaligus mempertahankan jarak yang besar terhadap nama-nama lain dalam daftar yang bukan orang yang dicari.

Latihan ini adalah bagian dari kursus

Ekspresi Reguler Tingkat Menengah di R

Lihat Kursus

Petunjuk latihan

  • Hasilkan q-gram untuk nilai panjang substring 1 dan 2.
  • Hitung jarak string antara search dan names menggunakan metode q-gram untuk nilai panjang substring 1 dan 2.
  • Hitung jarak string antara search dan names menggunakan metode "osa".

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

search <- "Mariah Carey"
names <- c("M. Carey", "Mick Jagger", "Michael Jackson")

# Pass the values 1 and 2 as "q" and inspect the qgrams
qgrams("Mariah Carey", "M. Carey", q = ___)
qgrams("Mariah Carey", "M. Carey", q = ___)

# Try the qgram method on the variables search and names
stringdist(___, ___, method = "___", q = 1)
stringdist(___, ___, method = "___", q = 2)

# Try the default method (osa) on the same input and compare
stringdist(___, ___, method = "___")
Edit dan Jalankan Kode