Visualizando e comparando incorporações de palavras
As incorporações de palavras são altamente dimensionais, o que as torna difíceis de interpretar diretamente. Neste exercício, você vai projetar alguns vetores de palavras em 2D usando a Análise de Componentes Principais (PCA) e visualizá-los. Isso ajuda a mostrar agrupamentos semânticos ou semelhanças entre palavras no espaço de incorporação. Depois, você vai comparar as representações de incorporação de dois modelos: glove-wiki-gigaword-50
, que você encontra na variável model_glove_wiki,
, e glove-twitter-25
, que você encontra em model_glove_twitter.
Este exercício faz parte do curso
Processamento de Linguagem Natural (NLP) em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
words = ["lion", "tiger", "leopard", "banana", "strawberry", "truck", "car", "bus"]
# Extract word embeddings
word_vectors = [____[____] for word in words]
# Reduce dimensions with PCA
pca = PCA(n_components=2)
word_vectors_2d = pca.____(____)
plt.scatter(word_vectors_2d[:, 0], word_vectors_2d[:, 1])
for word, (x, y) in zip(words, word_vectors_2d):
plt.annotate(word, (x, y))
plt.title("GloVe Wikipedia Word Embeddings (2D PCA)")
plt.show()