AutoTokenizer ile metni ön işle

Tarlada karşılaşılan sorunlar hakkında çiftçilerin soru sorabilmesini sağlayan bir hassas tarım uygulaması geliştiriyorsun. Çiftçilerin sık yaşadığı sorunlara dair yaygın soru ve yanıtları içeren bir veri kümesinden yararlanacaksın; bu veri kümesindeki alanlar şunlardır:

question: yaygın tarım soruları
answers: tarım sorularının yanıtları

Dağıtık eğitimin ilk adımı olarak bu metin veri kümesini ön işlemeye başlayacaksın.

Bazı veriler önceden yüklendi:

dataset, tarım soruları ve yanıtlarından oluşan bir örnek veri kümesini içerir
AutoTokenizer, transformers içinden içe aktarıldı

Bu egzersiz, kursun bir parçasıdır

PyTorch ile Verimli AI Model Eğitimi

Kursa Göz Atın

Egzersiz talimatları

Önceden eğitilmiş bir tokenizer yükle.
example["question"] ifadesini tokenizer kullanarak tokenize et.
encode() işlevini dataset üzerine uygula.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")

def encode(example):
    # Tokenize the "question" field of the training example
    return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")

# Map the function to the dataset
dataset = ____.____(____, batched=True)

dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)

print(dataset)

Kodu Düzenle ve Çalıştır