Tokenizzazione del testo
Vuoi sfruttare un modello pre-addestrato da Hugging Face e perfezionarlo (fine-tuning) con i dati del team di supporto della tua azienda per classificare le interazioni in base al rischio di churn. Questo aiuterà il team a dare priorità a cosa affrontare per primo e come farlo, rendendolo più proattivo.
Prepara i dati di training e di test per il fine-tuning tokenizzando il testo.
AutoTokenizer e AutoModelForSequenceClassification sono già stati caricati per te.
Questo esercizio fa parte del corso
Introduzione agli LLM in Python
Istruzioni dell'esercizio
- Carica il modello pre-addestrato e il tokenizer in preparazione al fine-tuning.
- Tokenizza sia
train_data["interaction"]chetest_data["interaction"], abilitando il padding e il troncamento delle sequenze.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")
# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
print(tokenized_training_data)