ComenzarEmpieza gratis

Tokenizar texto

Quieres aprovechar un modelo preentrenado de Hugging Face y ajustarlo con los datos del equipo de asistencia de tu empresa para ayudar a clasificar las interacciones en función del riesgo de abandono. Esto ayudará al equipo a priorizar qué abordar primero y cómo hacerlo, haciéndolo más proactivo.

Prepara los datos de entrenamiento y de prueba para el ajuste mediante la tokenización del texto.

Los datos AutoTokenizer y AutoModelForSequenceClassification se han cargado para ti.

Este ejercicio forma parte del curso

Introduction to LLMs in Python

Ver curso

Instrucciones de ejercicio

  • Carga el modelo preentrenado y el tokenizador como preparación para el ajuste fino.
  • Tokeniza tanto train_data["interaction"] como test_data["interaction"], permitiendo el relleno y el truncamiento de secuencias.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")

# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

print(tokenized_training_data)
Editar y ejecutar código