Memanipulasi himpunan data
Sering kali Anda perlu memanipulasi sebuah himpunan data sebelum menggunakannya dalam tugas ML. Dua manipulasi yang umum adalah pemfilteran dan pemilihan (atau pengirisan/slicing). Mengingat ukuran himpunan data ini, Hugging Face memanfaatkan tipe berkas Arrow.
Ini berarti proses manipulasi sedikit berbeda dari yang mungkin biasa Anda lakukan. Untungnya, sudah ada metode untuk membantu hal ini!
Himpunan data sudah dimuat untuk Anda pada variabel wikipedia.
Latihan ini adalah bagian dari kursus
Bekerja dengan Hugging Face
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])
# Create a sample dataset
example = ____.____(range(1))
print(example[0]["text"])