Experimentando métodos diferentes
Perfeito, você já aprendeu vários métodos para calcular distâncias entre strings. Qual método usar depende de muitas circunstâncias, então vale a pena brincar um pouco com os diferentes métodos e seus parâmetros para conhecê-los melhor. Neste exercício, você vai usar o termo de busca "Marya Carey" — uma versão digitada incorretamente do nome "Mariah Carey". Quão semelhante é o nome com erro em relação ao nome correto usando diferentes métodos de distância de strings?
O objetivo é encontrar parâmetros que gerem uma distância baixa entre os dois nomes descritos acima, mantendo uma distância alta para os outros nomes da lista que não são a pessoa que você está procurando.
Este exercício faz parte do curso
Expressões Regulares Intermediárias em R
Instruções do exercício
- Gere os q-grams para valores de comprimento de substring de
1e2. - Calcule a distância de strings entre
searchenamesusando o método q-gram para valores de comprimento de substring de1e2. - Calcule a distância de strings entre
searchenamesusando o método"osa".
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
search <- "Mariah Carey"
names <- c("M. Carey", "Mick Jagger", "Michael Jackson")
# Pass the values 1 and 2 as "q" and inspect the qgrams
qgrams("Mariah Carey", "M. Carey", q = ___)
qgrams("Mariah Carey", "M. Carey", q = ___)
# Try the qgram method on the variables search and names
stringdist(___, ___, method = "___", q = 1)
stringdist(___, ___, method = "___", q = 2)
# Try the default method (osa) on the same input and compare
stringdist(___, ___, method = "___")