Manipolazione degli insiemi di dati
Capiterà spesso di dover manipolare un insieme di dati prima di usarlo in un task di ML. Due operazioni comuni sono il filtraggio e la selezione (o slicing). Dato che questi insiemi di dati possono essere molto grandi, Hugging Face sfrutta i file di tipo Arrow.
Questo significa che le manipolazioni funzionano in modo leggermente diverso da quello a cui potresti essere abituato. Per fortuna, ci sono già metodi che ti aiutano a farlo!
L’insieme di dati è già caricato per te in wikipedia.
Questo esercizio fa parte del corso
Lavorare con Hugging Face
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])
# Create a sample dataset
example = ____.____(range(1))
print(example[0]["text"])