Tekst preprocessen met AutoTokenizer

Je bouwt een precisielandbouwapplicatie waarmee boeren vragen kunnen stellen over problemen die ze op het land tegenkomen. Je maakt gebruik van een gegevensset met veelvoorkomende vragen en antwoorden op problemen waar boeren mee te maken krijgen; de velden in deze gegevensset zijn

question: veelvoorkomende landbouwvragen
answers: antwoorden op de landbouwvragen

Als eerste stap in distributed training begin je met het preprocessen van deze tekstgegevensset.

Er is al wat data vooraf geladen:

dataset bevat een voorbeeldgegevensset met landbouwvragen en -antwoorden
AutoTokenizer is geïmporteerd uit transformers

Deze oefening maakt deel uit van de cursus

Efficiënt AI-modellen trainen met PyTorch

Bekijk cursus

Oefeninstructies

Laad een voorgetrainde tokenizer.
Tokenize example["question"] met de tokenizer.
Pas de encode()-functie toe op de dataset.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")

def encode(example):
    # Tokenize the "question" field of the training example
    return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")

# Map the function to the dataset
dataset = ____.____(____, batched=True)

dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)

print(dataset)

Code bewerken en uitvoeren