spaCy-woordenschat
Woordvectoren, of word embeddings, zijn numerieke representaties van woorden waarmee computers complexe taken met tekstdata kunnen uitvoeren. Woordvectoren maken deel uit van veel spaCy-modellen, maar sommige modellen hebben geen woordvectoren.
In deze oefening ga je oefenen met het opvragen van spaCy-woordenschatinformatie. In elk spaCy-model zijn er wat meta-informatie over woordvectoren opgeslagen. Je kunt deze informatie gebruiken om meer te weten te komen over de omvang van de woordenschat, de dimensies van de woordvectoren, enzovoort.
Het pakket spaCy is al voor je geïmporteerd. In de metadata van een spaCy-model wordt het aantal woorden opgeslagen als een element met de sleutel "vectors" en de dimensie van de woordvectoren als een element met de sleutel "width".
Deze oefening maakt deel uit van de cursus
Natural Language Processing met spaCy
Oefeninstructies
- Laad het model
en_core_web_md. - Print het aantal woorden in de woordenschat van het model
en_core_web_md. - Print de dimensies van de woordvectoren in het model
en_core_web_md.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load the en_core_web_md model
md_nlp = ____
# Print the number of words in the model's vocabulary
print("Number of words: ", md_nlp.____["vectors"]["vectors"], "\n")
# Print the dimensions of word vectors in en_core_web_md model
print("Dimension of word vectors: ", md_nlp.____["vectors"]["width"])