Pre-elabora il testo con AutoTokenizer
Stai creando un'applicazione di agricoltura di precisione per permettere agli agricoltori di porre domande sui problemi che incontrano in campo. Userai un insieme di dati con domande e risposte comuni ai problemi affrontati dagli agricoltori; i campi in questo insieme di dati sono
question: domande agricole comunianswers: risposte alle domande agricole
Come primo passo dell'addestramento distribuito, inizierai pre-elaborando questo insieme di dati testuale.
Alcuni dati sono stati precaricati:
datasetcontiene un insieme di dati di esempio con domande e risposte in ambito agricoloAutoTokenizerè stato importato datransformers
Questo esercizio fa parte del corso
Efficient AI Model Training with PyTorch
Istruzioni dell'esercizio
- Carica un
tokenizerpre-addestrato. - Tokenizza
example["question"]usando iltokenizer. - Applica la funzione
encode()adataset.
esercizio interattivo pratico
Prova questo esercizio completando questo codice di esempio.
# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")
def encode(example):
# Tokenize the "question" field of the training example
return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")
# Map the function to the dataset
dataset = ____.____(____, batched=True)
dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)
print(dataset)