Vocabulário do spaCy
Vetores de palavras, ou embeddings de palavras, são representações numéricas que permitem que computadores executem tarefas complexas com dados de texto. Vetores de palavras fazem parte de muitos modelos do spaCy, porém alguns modelos não possuem vetores.
Neste exercício, você vai praticar como acessar informações do vocabulário do spaCy. Alguns metadados sobre vetores de palavras são armazenados em cada modelo do spaCy. Você pode acessar essas informações para saber mais sobre o tamanho do vocabulário, as dimensões dos vetores de palavras etc.
O pacote spaCy já foi importado para você. Nos metadados de um modelo do spaCy, o número de palavras é armazenado como um elemento com a chave "vectors" e a dimensão dos vetores de palavras é armazenada como um elemento com a chave "width".
Este exercício faz parte do curso
Processamento de Linguagem Natural com spaCy
Instruções do exercício
- Carregue o modelo
en_core_web_md. - Imprima o número de palavras no vocabulário do modelo
en_core_web_md. - Imprima as dimensões dos vetores de palavras no modelo
en_core_web_md.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load the en_core_web_md model
md_nlp = ____
# Print the number of words in the model's vocabulary
print("Number of words: ", md_nlp.____["vectors"]["vectors"], "\n")
# Print the dimensions of word vectors in en_core_web_md model
print("Dimension of word vectors: ", md_nlp.____["vectors"]["width"])