IniziaInizia gratis

Tokenizzazione del testo

Vuoi sfruttare un modello pre-addestrato da Hugging Face e perfezionarlo (fine-tuning) con i dati del team di supporto della tua azienda per classificare le interazioni in base al rischio di churn. Questo aiuterà il team a dare priorità a cosa affrontare per primo e come farlo, rendendolo più proattivo.

Prepara i dati di training e di test per il fine-tuning tokenizzando il testo.

AutoTokenizer e AutoModelForSequenceClassification sono già stati caricati per te.

Questo esercizio fa parte del corso

Introduzione agli LLM in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Carica il modello pre-addestrato e il tokenizer in preparazione al fine-tuning.
  • Tokenizza sia train_data["interaction"] che test_data["interaction"], abilitando il padding e il troncamento delle sequenze.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")

# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

print(tokenized_training_data)
Modifica ed esegui il codice