Gegevenssets bewerken
Je zult waarschijnlijk vaak een gegevensset moeten bewerken voordat je die in een ML-taak gebruikt. Twee veelvoorkomende bewerkingen zijn filteren en selecteren (of slicen). Vanwege de grootte van deze gegevenssets maakt Hugging Face gebruik van Arrow-bestandstypen.
Dit betekent dat bewerkingen net iets anders gaan dan je misschien gewend bent. Gelukkig zijn er al methoden die je hierbij helpen!
De gegevensset is al voor je geladen onder wikipedia.
Deze oefening maakt deel uit van de cursus
Werken met Hugging Face
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])
# Create a sample dataset
example = ____.____(range(1))
print(example[0]["text"])