ComeçarComece de graça

Experimentando métodos diferentes

Perfeito, você já aprendeu vários métodos para calcular distâncias entre strings. Qual método usar depende de muitas circunstâncias, então vale a pena brincar um pouco com os diferentes métodos e seus parâmetros para conhecê-los melhor. Neste exercício, você vai usar o termo de busca "Marya Carey" — uma versão digitada incorretamente do nome "Mariah Carey". Quão semelhante é o nome com erro em relação ao nome correto usando diferentes métodos de distância de strings?

O objetivo é encontrar parâmetros que gerem uma distância baixa entre os dois nomes descritos acima, mantendo uma distância alta para os outros nomes da lista que não são a pessoa que você está procurando.

Este exercício faz parte do curso

Expressões Regulares Intermediárias em R

Ver curso

Instruções do exercício

  • Gere os q-grams para valores de comprimento de substring de 1 e 2.
  • Calcule a distância de strings entre search e names usando o método q-gram para valores de comprimento de substring de 1 e 2.
  • Calcule a distância de strings entre search e names usando o método "osa".

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

search <- "Mariah Carey"
names <- c("M. Carey", "Mick Jagger", "Michael Jackson")

# Pass the values 1 and 2 as "q" and inspect the qgrams
qgrams("Mariah Carey", "M. Carey", q = ___)
qgrams("Mariah Carey", "M. Carey", q = ___)

# Try the qgram method on the variables search and names
stringdist(___, ___, method = "___", q = 1)
stringdist(___, ___, method = "___", q = 2)

# Try the default method (osa) on the same input and compare
stringdist(___, ___, method = "___")
Editar e executar o código