AutoTokenizer ile metni ön işle
Tarlada karşılaşılan sorunlar hakkında çiftçilerin soru sorabilmesini sağlayan bir hassas tarım uygulaması geliştiriyorsun. Çiftçilerin sık yaşadığı sorunlara dair yaygın soru ve yanıtları içeren bir veri kümesinden yararlanacaksın; bu veri kümesindeki alanlar şunlardır:
question: yaygın tarım sorularıanswers: tarım sorularının yanıtları
Dağıtık eğitimin ilk adımı olarak bu metin veri kümesini ön işlemeye başlayacaksın.
Bazı veriler önceden yüklendi:
dataset, tarım soruları ve yanıtlarından oluşan bir örnek veri kümesini içerirAutoTokenizer,transformersiçinden içe aktarıldı
Bu egzersiz, kursun bir parçasıdır
PyTorch ile Verimli AI Model Eğitimi
Egzersiz talimatları
- Önceden eğitilmiş bir
tokenizeryükle. example["question"]ifadesinitokenizerkullanarak tokenize et.encode()işlevinidatasetüzerine uygula.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")
def encode(example):
# Tokenize the "question" field of the training example
return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")
# Map the function to the dataset
dataset = ____.____(____, batched=True)
dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)
print(dataset)