Visualizando e comparando incorporações de palavras

As incorporações de palavras são altamente dimensionais, o que as torna difíceis de interpretar diretamente. Neste exercício, você vai projetar alguns vetores de palavras em 2D usando a Análise de Componentes Principais (PCA) e visualizá-los. Isso ajuda a mostrar agrupamentos semânticos ou semelhanças entre palavras no espaço de incorporação. Depois, você vai comparar as representações de incorporação de dois modelos: glove-wiki-gigaword-50, que você encontra na variável model_glove_wiki,, e glove-twitter-25, que você encontra em model_glove_twitter.

Este exercício faz parte do curso

Processamento de Linguagem Natural (NLP) em Python

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

words = ["lion", "tiger", "leopard", "banana", "strawberry", "truck", "car", "bus"]

# Extract word embeddings
word_vectors = [____[____] for word in words]

# Reduce dimensions with PCA
pca = PCA(n_components=2)
word_vectors_2d = pca.____(____)

plt.scatter(word_vectors_2d[:, 0], word_vectors_2d[:, 1])
for word, (x, y) in zip(words, word_vectors_2d):
    plt.annotate(word, (x, y))
plt.title("GloVe Wikipedia Word Embeddings (2D PCA)")
plt.show()

Editar e executar o código

Este exercício faz parte do curso

Processamento de Linguagem Natural (NLP) em Python

IntermediárioNível de habilidade

4.8+

Iniciar curso de graça

Aprenda o básico sobre processamento de texto em Processamento de Linguagem Natural (NLP). Domine técnicas como tokenização, remoção de palavras irrelevantes e pontuação, além de normalização de texto com conversão para minúsculas, stemming e lematização para preparar dados de texto para análises mais detalhadas e extração de insights.

Exercise 1: Introdução ao processamento de linguagem natural Exercise 2: Tokenização de frases e palavras Exercise 3: Fluxo de trabalho da PNL Exercise 4: Tratamento de palavras vazias e pontuação Exercise 5: Tirando palavras que não servem Exercise 6: Tirando pontuação Exercise 7: Técnicas de normalização de texto Exercise 8: Conversão para minúsculas Exercise 9: Radicalização Exercise 10: Lematização

Transforme texto bruto em recursos numéricos poderosos. Crie representações Bag-of-Words e TF-IDF para capturar a importância das palavras nos documentos e, em seguida, explore incorporações de palavras como Word2Vec e GloVe para descobrir padrões semânticos profundos. Visualize a frequência, a relevância e a semelhança para dar vida aos seus dados de texto.

Exercise 1: Representação Bag-of-Words Exercise 2: Construindo vocabulário a partir das avaliações dos clientes Exercise 3: Transformando texto em números com BoW Exercise 4: Análise de frequência das avaliações dos produtos Exercise 5: Visualizando frequências de palavras Exercise 6: Vetorização TF-IDF Exercise 7: Representação TF-IDF do feedback do produto Exercise 8: Comparando as representações BoW e TF-IDF Exercise 9: Incorporações (embeddings)Exercise 10: Explorando as relações entre palavras com embeddings Exercise 11: Visualizando e comparando incorporações de palavras

Exercício atual

Aproveite o poder dos modelos pré-treinados para fazer tarefas avançadas de classificação de texto. Use os pipelines do Hugging Face para análise de sentimentos, classificação de tópicos e inferência de linguagem natural. Avalie a semelhança semântica e a correção gramatical com modelos de última geração, sem precisar criar nada do zero.

Exercise 1: Pipelines do Hugging Face para análise de sentimentos Exercise 2: Analisando o sentimento de uma avaliação Exercise 3: Classificar várias avaliações em lote Exercise 4: Comparando modelos em dados de avaliações rotulados Exercise 5: Classificação zero-shot e QNLI Exercise 6: Classificação zero-shot de tickets de suporte Exercise 7: O texto responde à pergunta?Exercise 8: Semelhança entre perguntas e correção gramatical Exercise 9: Detectando perguntas duplicadas Exercise 10: Verificando se tá tudo certo com a gramática

Mergulhe no mundo das aplicações modernas da PNL com técnicas de classificação de tokens e geração de texto. Aprenda a extrair entidades significativas e estruturas gramaticais usando NER e marcação PoS. Domine a resposta a perguntas extrativas e abstrativas e explore tarefas avançadas de geração, incluindo resumo, tradução e modelagem de linguagem usando pipelines Hugging Face.

Exercise 1: Classificação de tokens Exercise 2: Identificando entidades nomeadas em manchetes de notícias Exercise 3: Marcação de classes gramaticais para análise de texto Exercise 4: Resposta a perguntas Exercise 5: Respondendo perguntas das descrições dos produtos Exercise 6: Gerando respostas naturais com QA abstrativo Exercise 7: Tarefas de geração de sequências Exercise 8: Resumindo artigos de notícias pra dar uma visão geral rápida Exercise 9: Traduzindo comentários de clientes para o francês Exercise 10: Criando um sistema de preenchimento automático de pesquisa Exercise 11: Parabéns