Tokenización de oraciones y palabras

La tokenización es un primer paso esencial en NLP. Consiste en dividir el texto en unidades más pequeñas llamadas tokens, lo cual es clave para trabajar con datos de lenguaje. Tu tarea es tokenizar un fragmento de una noticia tanto en oraciones como en palabras.

Este ejercicio forma parte del curso

Natural Language Processing (NLP) en Python

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import nltk
____
# Download the punkt_tab package 
____

text = """
The stock market saw a significant dip today. Experts believe the downturn may continue.
However, many investors are optimistic about future growth.
"""

# Tokenize the text into sentences
sentences = ____
print(sentences)

Editar y ejecutar código

Este ejercicio forma parte del curso

Natural Language Processing (NLP) en Python

IntermedioNivel de habilidad

4.9+

Empieza el curso gratis

Aprende lo esencial del procesamiento de texto en Natural Language Processing (NLP). Domina técnicas como la tokenización, la eliminación de stop words y puntuación, y la normalización del texto con conversión a minúsculas, stemming y lematización para preparar los datos de texto de cara a un análisis posterior y a la extracción de insights.

Exercise 1: Introducción al procesamiento del lenguaje natural Exercise 2: Tokenización de oraciones y palabras

Ejercicio actual

Exercise 3: Flujo de trabajo de NLP Exercise 4: Gestión de stop words y puntuación Exercise 5: Eliminar stop words Exercise 6: Eliminar signos de puntuación Exercise 7: Técnicas de normalización de texto Exercise 8: Conversión a minúsculas Exercise 9: Stemming Exercise 10: Lematización

Transforma texto en bruto en potentes características numéricas. Crea representaciones Bag-of-Words y TF-IDF para capturar la importancia de las palabras entre documentos, y luego explora embeddings de palabras como Word2Vec y GloVe para descubrir patrones semánticos profundos. Visualiza frecuencia, relevancia y similitud para dar vida a tus datos de texto.

Exercise 1: Representación Bag-of-Words Exercise 2: Construir el vocabulario a partir de reseñas de clientes Exercise 3: Transformar texto en números con BoW Exercise 4: Análisis de frecuencia de reseñas de productos Exercise 5: Visualizar frecuencias de palabras Exercise 6: Vectorización TF-IDF Exercise 7: Representación TF-IDF de opiniones de producto Exercise 8: Comparando las representaciones BoW y TF-IDF Exercise 9: Embeddings Exercise 10: Explora relaciones entre palabras con embeddings Exercise 11: Visualizar y comparar word embeddings

Aprovecha la potencia de modelos preentrenados para realizar tareas avanzadas de clasificación de texto. Usa pipelines de Hugging Face para análisis de sentimiento, clasificación por temas e inferencia de lenguaje natural. Evalúa la similitud semántica y la corrección gramatical con modelos de última generación, sin tener que construir nada desde cero.

Exercise 1: Pipelines de Hugging Face para análisis de sentimiento Exercise 2: Analizar el sentimiento de una reseña Exercise 3: Clasificar múltiples reseñas por lotes Exercise 4: Comparar modelos con datos de reseñas etiquetados Exercise 5: Clasificación zero-shot y QNLI Exercise 6: Clasificación zero-shot de tickets de soporte Exercise 7: ¿El texto responde a la pregunta?Exercise 8: Similitud de preguntas y corrección gramatical Exercise 9: Detectar preguntas duplicadas Exercise 10: Comprobación de la corrección gramatical

Sumérgete en el núcleo de las aplicaciones modernas de NLP con técnicas de clasificación por tokens y generación de texto. Aprende a extraer entidades y estructuras gramaticales relevantes usando NER y etiquetado PoS. Domina el question answering extractivo y abstractivo, y explora tareas avanzadas de generación como el resumen, la traducción y el modelado del lenguaje con pipelines de Hugging Face.

Exercise 1: Clasificación de tokens Exercise 2: Identificar entidades con nombre en titulares de noticias Exercise 3: Etiquetado gramatical (Part of Speech) para análisis de texto Exercise 4: Preguntas y respuestas Exercise 5: Responder preguntas a partir de descripciones de productos Exercise 6: Generar respuestas naturales con QA abstractiva Exercise 7: Tareas de generación de secuencias Exercise 8: Resumir artículos de noticias para obtener ideas rápidas Exercise 9: Traducir reseñas de clientes al francés Exercise 10: Crear un sistema de autocompletado de búsquedas Exercise 11: ¡Enhorabuena!