RegEx em Python
A extração de informações baseada em regras é útil para muitas tarefas de NLP. Certos tipos de entidades, como datas ou números de telefone, têm formatos distintos que podem ser reconhecidos por um conjunto de regras, sem precisar treinar nenhum modelo. Neste exercício, você vai praticar o uso do pacote re para RegEx. O objetivo é encontrar números de telefone em um determinado text.
O pacote re já foi importado para você. Você pode usar \d para corresponder a padrões de string representativos de um metacaractere que corresponde a qualquer dígito de 0 a 9.
Este exercício faz parte do curso
Processamento de Linguagem Natural com spaCy
Instruções do exercício
- Defina um padrão para corresponder a números de telefone no formato (111)-111-1111.
- Encontre todos os padrões correspondentes usando o método
re.finditer(). - Para cada correspondência, imprima os caracteres inicial e final e a parte correspondente do
textfornecido.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
text = "Our phone number is (425)-123-4567."
# Define a pattern to match phone numbers
pattern = r"\((____){____}\)-(____){____}-(____){____}"
# Find all the matching patterns in the text
phones = re.____(pattern, text)
# Print start and end characters and matching section of the text
for match in phones:
start_char = match.____
end_char = match.____
print("Start character: ", ____, "| End character: ", ____, "| Matching text: ", text[____:____])