Pre-elabora il testo con AutoTokenizer

Stai creando un'applicazione di agricoltura di precisione per permettere agli agricoltori di porre domande sui problemi che incontrano in campo. Userai un insieme di dati con domande e risposte comuni ai problemi affrontati dagli agricoltori; i campi in questo insieme di dati sono

question: domande agricole comuni
answers: risposte alle domande agricole

Come primo passo dell'addestramento distribuito, inizierai pre-elaborando questo insieme di dati testuale.

Alcuni dati sono stati precaricati:

dataset contiene un insieme di dati di esempio con domande e risposte in ambito agricolo
AutoTokenizer è stato importato da transformers

Questo esercizio fa parte del corso

Efficient AI Model Training with PyTorch

Visualizza corso

Istruzioni dell'esercizio

Carica un tokenizer pre-addestrato.
Tokenizza example["question"] usando il tokenizer.
Applica la funzione encode() a dataset.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")

def encode(example):
    # Tokenize the "question" field of the training example
    return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")

# Map the function to the dataset
dataset = ____.____(____, batched=True)

dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)

print(dataset)

Modifica ed esegui il codice