IniziaInizia gratis

Manipolazione degli insiemi di dati

Capiterà spesso di dover manipolare un insieme di dati prima di usarlo in un task di ML. Due operazioni comuni sono il filtraggio e la selezione (o slicing). Dato che questi insiemi di dati possono essere molto grandi, Hugging Face sfrutta i file di tipo Arrow.

Questo significa che le manipolazioni funzionano in modo leggermente diverso da quello a cui potresti essere abituato. Per fortuna, ci sono già metodi che ti aiutano a farlo!

L’insieme di dati è già caricato per te in wikipedia.

Questo esercizio fa parte del corso

Lavorare con Hugging Face

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])

# Create a sample dataset
example = ____.____(range(1))

print(example[0]["text"])
Modifica ed esegui il codice