Tokenizar texto
Quieres aprovechar un modelo preentrenado de Hugging Face y ajustarlo con los datos del equipo de asistencia de tu empresa para ayudar a clasificar las interacciones en función del riesgo de abandono. Esto ayudará al equipo a priorizar qué abordar primero y cómo hacerlo, haciéndolo más proactivo.
Prepara los datos de entrenamiento y de prueba para el ajuste mediante la tokenización del texto.
Los datos AutoTokenizer
y AutoModelForSequenceClassification
se han cargado para ti.
Este ejercicio forma parte del curso
Introduction to LLMs in Python
Instrucciones de ejercicio
- Carga el modelo preentrenado y el tokenizador como preparación para el ajuste fino.
- Tokeniza tanto
train_data["interaction"]
comotest_data["interaction"]
, permitiendo el relleno y el truncamiento de secuencias.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")
# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
print(tokenized_training_data)