Inizia subitoInizia gratis

Manipolazione degli insiemi di dati

Capiterà spesso di dover manipolare un insieme di dati prima di usarlo in un task di ML. Due operazioni comuni sono il filtraggio e la selezione (o slicing). Dato che questi insiemi di dati possono essere molto grandi, Hugging Face sfrutta i file di tipo Arrow.

Questo significa che le manipolazioni funzionano in modo leggermente diverso da quello a cui potresti essere abituato. Per fortuna, ci sono già metodi che ti aiutano a farlo!

L’insieme di dati è già caricato per te in wikipedia.

Questo esercizio fa parte del corso

Lavorare con Hugging Face

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])

# Create a sample dataset
example = ____.____(range(1))

print(example[0]["text"])
Modifica ed esegui il codice