Treinando múltiplos rótulos
Aqui está uma pequena amostra de um conjunto de dados criado para treinar um novo tipo de entidade WEBSITE. O conjunto original contém alguns milhares de frases. Neste exercício, você vai fazer a rotulagem manualmente. Na prática, é melhor automatizar isso e usar uma ferramenta de anotação – por exemplo, o Brat, uma solução popular de código aberto, ou o Prodigy, nossa própria ferramenta de anotação que se integra ao spaCy.
Depois deste exercício, você estará quase concluindo o curso! Se você curtiu, sinta-se à vontade para enviar um agradecimento para a Ines no Twitter – ela vai gostar! Tweet para a Ines
Este exercício faz parte do curso
NLP Avançado com spaCy
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
TRAINING_DATA = [
("Reddit partners with Patreon to help creators build communities",
{'entities': [(____, ____, 'WEBSITE'), (____, ____, 'WEBSITE')]}),
("PewDiePie smashes YouTube record",
{'entities': [(____, ____, 'WEBSITE')]}),
("Reddit founder Alexis Ohanian gave away two Metallica tickets to fans",
{'entities': [(____, ___, 'WEBSITE')]}),
# And so on...
]