Mulai sekarangMulai gratis

Praproses teks dengan AutoTokenizer

Anda sedang membangun aplikasi pertanian presisi yang memungkinkan petani mengajukan pertanyaan tentang masalah yang mereka temui di lapangan. Anda akan memanfaatkan himpunan data berisi pertanyaan umum dan jawabannya terkait masalah yang dihadapi petani; field dalam himpunan data ini adalah

  • question: pertanyaan pertanian yang umum
  • answers: jawaban atas pertanyaan pertanian tersebut

Sebagai langkah pertama dalam pelatihan terdistribusi, Anda akan mulai dengan melakukan prapemrosesan pada himpunan data teks ini.

Beberapa data telah dimuat sebelumnya:

  • dataset berisi contoh himpunan data pertanyaan dan jawaban terkait pertanian
  • AutoTokenizer telah diimpor dari transformers

Latihan ini merupakan bagian dari kursus

Pelatihan Model AI Efisien dengan PyTorch

Lihat Kursus

Instruksi latihan

  • Muat tokenizer terlatih sebelumnya.
  • Tokenisasikan example["question"] menggunakan tokenizer.
  • Terapkan fungsi encode() pada dataset.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")

def encode(example):
    # Tokenize the "question" field of the training example
    return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")

# Map the function to the dataset
dataset = ____.____(____, batched=True)

dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)

print(dataset)
Edit dan Jalankan Kode