Tekst preprocessen met AutoTokenizer
Je bouwt een precisielandbouwapplicatie waarmee boeren vragen kunnen stellen over problemen die ze op het land tegenkomen. Je maakt gebruik van een gegevensset met veelvoorkomende vragen en antwoorden op problemen waar boeren mee te maken krijgen; de velden in deze gegevensset zijn
question: veelvoorkomende landbouwvragenanswers: antwoorden op de landbouwvragen
Als eerste stap in distributed training begin je met het preprocessen van deze tekstgegevensset.
Er is al wat data vooraf geladen:
datasetbevat een voorbeeldgegevensset met landbouwvragen en -antwoordenAutoTokenizeris geïmporteerd uittransformers
Deze oefening maakt deel uit van de cursus
Efficiënt AI-modellen trainen met PyTorch
Oefeninstructies
- Laad een voorgetrainde
tokenizer. - Tokenize
example["question"]met detokenizer. - Pas de
encode()-functie toe op dedataset.
Interactieve oefening met praktijkervaring
Probeer deze oefening door deze voorbeeldcode aan te vullen.
# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")
def encode(example):
# Tokenize the "question" field of the training example
return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")
# Map the function to the dataset
dataset = ____.____(____, batched=True)
dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)
print(dataset)