Mulai sekarangMulai gratis

Mencoba berbagai metode

Bagus, Anda sudah mempelajari beberapa metode untuk menghitung jarak string. Metode yang digunakan bergantung pada banyak keadaan, jadi ada baiknya bereksperimen dengan berbagai metode dan parameternya agar lebih memahami. Untuk latihan ini Anda akan menggunakan kata pencarian "Marya Carey" — versi salah ketik dari nama "Mariah Carey". Seberapa mirip nama yang salah ketik tersebut dengan yang sebenarnya jika diukur dengan berbagai metode jarak string?

Tujuannya adalah menemukan parameter yang menghasilkan jarak rendah untuk kedua nama yang disebutkan di atas, sekaligus mempertahankan jarak yang besar terhadap nama-nama lain dalam daftar yang bukan orang yang dicari.

Latihan ini merupakan bagian dari kursus

Ekspresi Reguler Tingkat Menengah di R

Lihat Kursus

Instruksi latihan

  • Hasilkan q-gram untuk nilai panjang substring 1 dan 2.
  • Hitung jarak string antara search dan names menggunakan metode q-gram untuk nilai panjang substring 1 dan 2.
  • Hitung jarak string antara search dan names menggunakan metode "osa".

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

search <- "Mariah Carey"
names <- c("M. Carey", "Mick Jagger", "Michael Jackson")

# Pass the values 1 and 2 as "q" and inspect the qgrams
qgrams("Mariah Carey", "M. Carey", q = ___)
qgrams("Mariah Carey", "M. Carey", q = ___)

# Try the qgram method on the variables search and names
stringdist(___, ___, method = "___", q = 1)
stringdist(___, ___, method = "___", q = 2)

# Try the default method (osa) on the same input and compare
stringdist(___, ___, method = "___")
Edit dan Jalankan Kode