Praproses teks dengan AutoTokenizer
Anda sedang membangun aplikasi pertanian presisi yang memungkinkan petani mengajukan pertanyaan tentang masalah yang mereka temui di lapangan. Anda akan memanfaatkan himpunan data berisi pertanyaan umum dan jawabannya terkait masalah yang dihadapi petani; field dalam himpunan data ini adalah
question: pertanyaan pertanian yang umumanswers: jawaban atas pertanyaan pertanian tersebut
Sebagai langkah pertama dalam pelatihan terdistribusi, Anda akan mulai dengan melakukan prapemrosesan pada himpunan data teks ini.
Beberapa data telah dimuat sebelumnya:
datasetberisi contoh himpunan data pertanyaan dan jawaban terkait pertanianAutoTokenizertelah diimpor daritransformers
Latihan ini merupakan bagian dari kursus
Pelatihan Model AI Efisien dengan PyTorch
Instruksi latihan
- Muat
tokenizerterlatih sebelumnya. - Tokenisasikan
example["question"]menggunakantokenizer. - Terapkan fungsi
encode()padadataset.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")
def encode(example):
# Tokenize the "question" field of the training example
return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")
# Map the function to the dataset
dataset = ____.____(____, batched=True)
dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)
print(dataset)