Tokenização de frases e palavras

A tokenização é um primeiro passo importante na NLP. É quando a gente divide o texto em partes menores, chamadas tokens, o que é essencial pra trabalhar com dados linguísticos. A sua tarefa é dividir um trecho de uma notícia em frases e palavras.

Este exercício faz parte do curso

Processamento de Linguagem Natural (NLP) em Python

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import nltk
____
# Download the punkt_tab package 
____

text = """
The stock market saw a significant dip today. Experts believe the downturn may continue.
However, many investors are optimistic about future growth.
"""

# Tokenize the text into sentences
sentences = ____
print(sentences)

Editar e executar o código

Este exercício faz parte do curso

Processamento de Linguagem Natural (NLP) em Python

IntermediárioNível de habilidade

4.8+

Iniciar curso de graça

Aprenda o básico sobre processamento de texto em Processamento de Linguagem Natural (NLP). Domine técnicas como tokenização, remoção de palavras irrelevantes e pontuação, além de normalização de texto com conversão para minúsculas, stemming e lematização para preparar dados de texto para análises mais detalhadas e extração de insights.

Exercise 1: Introdução ao processamento de linguagem natural Exercise 2: Tokenização de frases e palavras

Exercício atual

Exercise 3: Fluxo de trabalho da PNL Exercise 4: Tratamento de palavras vazias e pontuação Exercise 5: Tirando palavras que não servem Exercise 6: Tirando pontuação Exercise 7: Técnicas de normalização de texto Exercise 8: Conversão para minúsculas Exercise 9: Radicalização Exercise 10: Lematização

Transforme texto bruto em recursos numéricos poderosos. Crie representações Bag-of-Words e TF-IDF para capturar a importância das palavras nos documentos e, em seguida, explore incorporações de palavras como Word2Vec e GloVe para descobrir padrões semânticos profundos. Visualize a frequência, a relevância e a semelhança para dar vida aos seus dados de texto.

Exercise 1: Representação Bag-of-Words Exercise 2: Construindo vocabulário a partir das avaliações dos clientes Exercise 3: Transformando texto em números com BoW Exercise 4: Análise de frequência das avaliações dos produtos Exercise 5: Visualizando frequências de palavras Exercise 6: Vetorização TF-IDF Exercise 7: Representação TF-IDF do feedback do produto Exercise 8: Comparando as representações BoW e TF-IDF Exercise 9: Incorporações (embeddings)Exercise 10: Explorando as relações entre palavras com embeddings Exercise 11: Visualizando e comparando incorporações de palavras

Aproveite o poder dos modelos pré-treinados para fazer tarefas avançadas de classificação de texto. Use os pipelines do Hugging Face para análise de sentimentos, classificação de tópicos e inferência de linguagem natural. Avalie a semelhança semântica e a correção gramatical com modelos de última geração, sem precisar criar nada do zero.

Exercise 1: Pipelines do Hugging Face para análise de sentimentos Exercise 2: Analisando o sentimento de uma avaliação Exercise 3: Classificar várias avaliações em lote Exercise 4: Comparando modelos em dados de avaliações rotulados Exercise 5: Classificação zero-shot e QNLI Exercise 6: Classificação zero-shot de tickets de suporte Exercise 7: O texto responde à pergunta?Exercise 8: Semelhança entre perguntas e correção gramatical Exercise 9: Detectando perguntas duplicadas Exercise 10: Verificando se tá tudo certo com a gramática

Mergulhe no mundo das aplicações modernas da PNL com técnicas de classificação de tokens e geração de texto. Aprenda a extrair entidades significativas e estruturas gramaticais usando NER e marcação PoS. Domine a resposta a perguntas extrativas e abstrativas e explore tarefas avançadas de geração, incluindo resumo, tradução e modelagem de linguagem usando pipelines Hugging Face.

Exercise 1: Classificação de tokens Exercise 2: Identificando entidades nomeadas em manchetes de notícias Exercise 3: Marcação de classes gramaticais para análise de texto Exercise 4: Resposta a perguntas Exercise 5: Respondendo perguntas das descrições dos produtos Exercise 6: Gerando respostas naturais com QA abstrativo Exercise 7: Tarefas de geração de sequências Exercise 8: Resumindo artigos de notícias pra dar uma visão geral rápida Exercise 9: Traduzindo comentários de clientes para o francês Exercise 10: Criando um sistema de preenchimento automático de pesquisa Exercise 11: Parabéns