ComeçarComece de graça

Projeção de vetores de palavras

Você pode visualizar vetores de palavras em um gráfico de dispersão para ajudar a entender como as palavras do vocabulário se agrupam. Para visualizar vetores, você precisa projetá-los em um espaço bidimensional. Isso pode ser feito extraindo os dois componentes principais via Análise de Componentes Principais (PCA).

Neste exercício, você vai praticar como extrair vetores de palavras e projetá-los em um espaço bidimensional usando a biblioteca PCA do sklearn.

Uma pequena lista de palavras está armazenada em words, e o modelo en_core_web_md está disponível como nlp. Todas as bibliotecas e pacotes necessários já foram importados para você (PCA, numpy como np).

Este exercício faz parte do curso

Processamento de Linguagem Natural com spaCy

Ver curso

Instruções do exercício

  • Extraia os IDs das palavras fornecidas e armazene-os na lista word_ids.
  • Extraia os cinco primeiros elementos dos vetores dessas palavras e empilhe-os verticalmente usando np.vstack() em word_vectors.
  • Dado um objeto pca, calcule os vetores transformados usando a função .fit_transform() da classe pca.
  • Imprima o primeiro componente dos vetores transformados usando a indexação [:, 0].

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

words = ["tiger", "bird"]

# Extract word IDs of given words
word_ids = [nlp.____.____[w] for w in words]

# Extract word vectors and stack the first five elements vertically
word_vectors = np.vstack([nlp.____.____[i][:5] for i in word_ids])

# Calculate the transformed word vectors using the pca object
pca = PCA(n_components=2)
word_vectors_transformed = pca.____(____)

# Print the first component of the transformed word vectors
print(____[:, 0])
Editar e executar o código