PhraseMatcher no spaCy
Ao processar texto não estruturado, é comum ter listas e dicionários longos que você quer varrer e comparar com textos específicos. Os padrões do Matcher são feitos manualmente e cada token precisa ser codificado individualmente. Se você tiver uma lista grande de expressões, Matcher deixa de ser a melhor opção. Nesses casos, a classe PhraseMatcher ajuda a corresponder dicionários extensos. Neste exercício, você vai praticar como recuperar padrões com as mesmas formas para vários termos usando a classe PhraseMatcher.
O modelo en_core_web_sm já está carregado e disponível como nlp. A classe PhraseMatcher foi importada. Uma string text e uma lista de terms estão disponíveis para você usar.
Este exercício faz parte do curso
Processamento de Linguagem Natural com spaCy
Instruções do exercício
- Inicialize a classe
PhraseMatchercom umattrpara corresponder à forma dostermsfornecidos. - Crie
patternspara adicionar ao objetoPhraseMatcher. - Encontre correspondências para os padrões e imprima os índices dos tokens de início e fim e o trecho correspondente do
textfornecido.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
text = "There are only a few acceptable IP addresse: (1) 127.100.0.1, (2) 123.4.1.0."
terms = ["110.0.0.0", "101.243.0.0"]
# Initialize a PhraseMatcher class to match to shapes of given terms
matcher = ____(nlp.____, attr = ____)
# Create patterns to add to the PhraseMatcher object
patterns = [nlp.make_doc(____) for term in terms]
matcher.____("IPAddresses", patterns)
# Find matches to the given patterns and print start and end characters and matches texts
doc = ____
matches = ____
for match_id, start, end in matches:
print("Start token: ", ____, " | End token: ", ____, "| Matched text: ", doc[____:____].text)